解决大数据计算过程中数据倾斜的方法,申请号CN201610638080.2-传众专利搜索

发明名称	解决大数据计算过程中数据倾斜的方法
摘要	本发明提出了一种解决大数据计算过程中数据倾斜的方法，包括以下步骤：分析每天数据的主键的量级，设定一个阈值D，得到每个主键下的数据的分组数量N；根据每个主键的阈值D和分组数量N，得到主键分组生成码表；当进行数据分析或处理时，查询之前生成好的主键分组生成码表，给每个数据的主键加上一个1到分组数量N之间的随机数作为新主键，最终完成第一次分组；最终完成数据处理；根据原始的主键进行第二次分组，并统计最终分组结果。本发明无需增加硬件成本，对shuffle操作导致的数据倾斜有着明显的作用，通常可以解决数据倾斜问题，或者至少是大幅度缓解数据倾斜，将Spark作业的性能提高。
申请公布号	CN106293938A	申请公布日期	2017.01.04
申请号	CN201610638080.2	申请日期	2016.08.05
申请人	飞思达技术(北京)有限公司	发明人	崔隆
分类号	G06F9/50(2006.01)I	主分类号	G06F9/50(2006.01)I
代理机构	北京中企鸿阳知识产权代理事务所(普通合伙) 11487	代理人	郭鸿雁
主权项	一种解决大数据计算过程中数据倾斜的方法，其特征在于，包括以下步骤：步骤S1，分析每天数据的主键的量级，设定一个阈值D，得到每个主键下的数据的分组数量N；步骤S2，根据每个主键的阈值D和分组数量N，得到主键分组生成码表，每次进行数据分析或处理时查询此表，根据相应的分组数量N对数据进行分组；步骤S3，当进行数据分析或处理时，查询之前生成好的主键分组生成码表，给每个数据的主键加上一个1到分组数量N之间的随机数作为新主键，将新主键相同的数据分为一组，分为N组，最终完成第一次分组；步骤S4，对第一次分组后的数据，采用不同task任务处理新主键不同的数据，同一task任务处理新主键相同的数据，最终完成数据处理；步骤S5，对上述处理后的数据，去除新主键后面所加的随机数，得到数据原始的主键，根据原始的主键进行第二次分组，并统计最终分组结果。
地址	100085 北京市海淀区上地五街九号2幢四层400房间