发明名称 大数据环境下的流式数据处理方法
摘要 本发明公开了一种大数据环境下的流式数据处理方法,主要涉及MapReduce计算模型的改进,具体包括:数据的本地化无冗余存放与处理机制,让每个计算节点只存储与处理对应区间内的数据;以流水线的方式调度Map和Reduce相关线程以加快处理速度;中间结果的内存存放机制,用以保证数据本地化与流水线的有效实施,提供高速、便捷的内存访问模式。通过以上三个模块,保证在大数据环境下,对数据流进行处理的可靠性与高效性,满足实际应用中数据处理的需求。
申请公布号 CN103345514B 申请公布日期 2016.06.08
申请号 CN201310287554.X 申请日期 2013.07.09
申请人 焦点科技股份有限公司;东南大学 发明人 东方;罗军舟;张毅;王宇翔;徐晓冬
分类号 G06F17/30(2006.01)I;G06F9/44(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京瑞弘专利商标事务所(普通合伙) 32249 代理人 杨晓玲
主权项 一种大数据环境下的流式数据处理方法,特征在于该方法包括以下步骤:1):处理累积的大数据即历史数据生成中间结果集,划分该结果集并分布缓存到各计算节点;2):每个计算节点定时地接受全部的流式数据,通过Map处理得到中间结果;3):通过中间结果划分方法过滤得到该节点的中间结果,缓存于本地节点上,达到阈值10,000条后形成一个分片,发送该分片;4):当中间结果分片到达后,根据流水线调度算法,把历史数据中间结果同该中间结果分片一起作为Reduce输入;5):输出计算结果,该计算结果是一个任务不同时期部分输出,把所有的这些结果归并到同一个文件中,形成最终输出结果。
地址 210061 江苏省南京市高新开发区星火路软件大厦A座12F