发明名称 |
大数据环境下的流式数据处理方法 |
摘要 |
本发明公开了一种大数据环境下的流式数据处理方法,主要涉及MapReduce计算模型的改进,具体包括:数据的本地化无冗余存放与处理机制,让每个计算节点只存储与处理对应区间内的数据;以流水线的方式调度Map和Reduce相关线程以加快处理速度;中间结果的内存存放机制,用以保证数据本地化与流水线的有效实施,提供高速、便捷的内存访问模式。通过以上三个模块,保证在大数据环境下,对数据流进行处理的可靠性与高效性,满足实际应用中数据处理的需求。 |
申请公布号 |
CN103345514B |
申请公布日期 |
2016.06.08 |
申请号 |
CN201310287554.X |
申请日期 |
2013.07.09 |
申请人 |
焦点科技股份有限公司;东南大学 |
发明人 |
东方;罗军舟;张毅;王宇翔;徐晓冬 |
分类号 |
G06F17/30(2006.01)I;G06F9/44(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
南京瑞弘专利商标事务所(普通合伙) 32249 |
代理人 |
杨晓玲 |
主权项 |
一种大数据环境下的流式数据处理方法,特征在于该方法包括以下步骤:1):处理累积的大数据即历史数据生成中间结果集,划分该结果集并分布缓存到各计算节点;2):每个计算节点定时地接受全部的流式数据,通过Map处理得到中间结果;3):通过中间结果划分方法过滤得到该节点的中间结果,缓存于本地节点上,达到阈值10,000条后形成一个分片,发送该分片;4):当中间结果分片到达后,根据流水线调度算法,把历史数据中间结果同该中间结果分片一起作为Reduce输入;5):输出计算结果,该计算结果是一个任务不同时期部分输出,把所有的这些结果归并到同一个文件中,形成最终输出结果。 |
地址 |
210061 江苏省南京市高新开发区星火路软件大厦A座12F |