发明名称 |
一种数据的并行处理方法和系统 |
摘要 |
本发明公开了一种数据的并行处理方法,包括:一个或多个Map节点读取账户日志数据的分片数据,从分片数据中选出状态持续时间满足查询日期要求的候选数据记录,生成所选出的候选数据记录的第一输出参数和第二输出参数;第一输出参数至少包括账户ID,第二输出参数至少包括:状态开始日、状态结束日和状态值;一个或多个Reduce节点读取Map节点处理完的不同候选数据记录,根据候选数据记录的第一输出参数和第二输出参数分别生成各账户在查询日期范围内的完整历史状态记录;第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取。本发明能提高大规模日志数据的处理效率。本发明还公开了一种数据的并行处理系统。 |
申请公布号 |
CN104036039A |
申请公布日期 |
2014.09.10 |
申请号 |
CN201410307198.8 |
申请日期 |
2014.06.30 |
申请人 |
浪潮(北京)电子信息产业有限公司 |
发明人 |
亓开元;赵仁明;辛国茂;房体盈 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京安信方达知识产权代理有限公司 11262 |
代理人 |
胡艳华;李丹 |
主权项 |
一种数据的并行处理方法,该方法包括:一个或多个Map节点读取账户日志数据的分片数据,从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录,生成所选出的候选数据记录的第一输出参数和第二输出参数;其中,所述候选数据记录的第一输出参数至少包括账户ID,所述第二输出参数设定为账户状态信息,所述账户状态信息至少包括:状态开始日、状态结束日和状态值;一个或多个Reduce节点读取所述Map节点处理完毕的不同候选数据记录,根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录;其中,第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取。 |
地址 |
100085 北京市海淀区上地信息路2号2-1号C栋1层 |