发明名称 数据洗牌时内存溢出的修复方法及装置
摘要 本发明公开了一种数据洗牌时内存溢出的修复方法及装置,涉及大数据处理领域,为解决在数据洗牌时,由于某个键值记录数特别多以至于内存装不下时,报内存溢出的问题而发明。本发明的方法包括:当对数据进行洗牌发生内存溢出时,找出目标键值记录,目标键值记录为记录数超过预设阈值的键值记录;对目标键值记录进行数据分流处理;将非目标键值记录重新进行洗牌,并做规约reduce操作,获得初步处理结果;将数据分流处理的结果与初步处理结果进行叠加,并做reduce操作,获得最终处理结果。本发明适合应用在对大数据处理的Spark领域。
申请公布号 CN106569734A 申请公布日期 2017.04.19
申请号 CN201510660797.2 申请日期 2015.10.12
申请人 北京国双科技有限公司 发明人 洪超
分类号 G06F3/06(2006.01)I 主分类号 G06F3/06(2006.01)I
代理机构 北京鼎佳达知识产权代理事务所(普通合伙) 11348 代理人 王伟锋;刘铁生
主权项 一种数据洗牌时内存溢出的修复方法,其特征在于,所述方法包括:当对数据进行洗牌发生内存溢出时,找出目标键值记录,所述目标键值记录为记录数超过预设阈值的键值记录;对所述目标键值记录进行数据分流处理;将非目标键值记录重新进行洗牌,并做规约reduce操作,获得初步处理结果;将所述数据分流处理的结果与所述初步处理结果进行叠加,并做reduce操作,获得最终处理结果。
地址 100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间
您可能感兴趣的专利