发明名称 |
一种分布式数据仓库中实现计算均衡的方法及装置 |
摘要 |
本发明公开了一种分布式数据仓库中实现计算均衡的方法及装置,用于解决分布式数据仓库在执行Map/Reduce计算过程中由于数据自身的不均衡分布导致在执行SQL查询时,集群计算资源使用不均衡的技术问题。本发明在分布式数据仓库中,将对字段分布情况的感知功能与查询引擎结合,对查询引擎翻译的MR任务进行调整,根据字段值分布情况,进行查询语句的翻译,通过添加一个或者多个MR任务对数据进行打散操作,使得数据分散更加合理均衡,从而达到计算均衡,提高了集群内部计算资源的平均利用,加快了MR任务的执行速度。 |
申请公布号 |
CN102479217B |
申请公布日期 |
2015.07.15 |
申请号 |
CN201010566142.6 |
申请日期 |
2010.11.23 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
李均;王有为;郭玮;洪坤乾;赵伟 |
分类号 |
G06F17/30(2006.01)I;G06F9/50(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京派特恩知识产权代理有限公司 11270 |
代理人 |
程立民;张颖玲 |
主权项 |
一种分布式数据仓库中实现计算均衡的方法,其特征在于,该方法包括:在查询语句入口插入计算均衡性入口检测代码,通过该计算均衡性入口检测代码获得执行聚集操作的字段值分布情况;若执行聚集操作的字段值分布不均衡,则对查询引擎翻译的映射缩减MR任务进行优化,增加一个或多个MR任务,对数据进行打散操作;其中,所述获得执行聚集操作的字段值分布情况的方法包括静态方式和动态方式;静态方式下,计算均衡性入口检测代码直接从数据字典表或表元数据表中读取所述执行聚集操作的字段的字段值分布情况;动态方式下,计算均衡性入口检测代码在MR执行过程中对字段值分布规律进行统计,从而获得相应字段值的分布情况。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |