发明名称 |
数据洗牌时内存溢出的修复方法及装置 |
摘要 |
本发明公开了一种数据洗牌时内存溢出的修复方法及装置,涉及大数据处理领域,为解决在数据洗牌时,由于某个键值记录数特别多以至于内存装不下时,报内存溢出的问题而发明。本发明的方法包括:当对数据进行洗牌发生内存溢出时,找出目标键值记录,目标键值记录为记录数超过预设阈值的键值记录;对目标键值记录进行数据分流处理;将非目标键值记录重新进行洗牌,并做规约reduce操作,获得初步处理结果;将数据分流处理的结果与初步处理结果进行叠加,并做reduce操作,获得最终处理结果。本发明适合应用在对大数据处理的Spark领域。 |
申请公布号 |
CN106569734A |
申请公布日期 |
2017.04.19 |
申请号 |
CN201510660797.2 |
申请日期 |
2015.10.12 |
申请人 |
北京国双科技有限公司 |
发明人 |
洪超 |
分类号 |
G06F3/06(2006.01)I |
主分类号 |
G06F3/06(2006.01)I |
代理机构 |
北京鼎佳达知识产权代理事务所(普通合伙) 11348 |
代理人 |
王伟锋;刘铁生 |
主权项 |
一种数据洗牌时内存溢出的修复方法,其特征在于,所述方法包括:当对数据进行洗牌发生内存溢出时,找出目标键值记录,所述目标键值记录为记录数超过预设阈值的键值记录;对所述目标键值记录进行数据分流处理;将非目标键值记录重新进行洗牌,并做规约reduce操作,获得初步处理结果;将所述数据分流处理的结果与所述初步处理结果进行叠加,并做reduce操作,获得最终处理结果。 |
地址 |
100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间 |