发明名称 |
分组聚集排序TopK查询处理方法及系统 |
摘要 |
本发明涉及一种分组聚集排序TopK查询处理方法及系统。分组聚集排序TopK查询处理方法包括:接收分组聚集排序TopK查询请求;各分布式数据节点根据所述查询请求,进行本地数据分组聚集,并将自身的分组聚集数据异步传输到集中处理节点;所述集中处理节点采用哈希表结合二叉平衡树的数据结构对各分布式数据节点的分组聚集数据进行数据合并,并采用近似高频项统计算法进行统计,得到聚集排序后的高频项列表;输出所述高频项列表。本发明的分组聚集排序TopK查询处理方法及系统灵活性好,查询效率高,分布式适应性好。 |
申请公布号 |
CN103544259A |
申请公布日期 |
2014.01.29 |
申请号 |
CN201310484629.3 |
申请日期 |
2013.10.16 |
申请人 |
国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 |
发明人 |
云晓春;徐小琳;王明华;高胜;李高超;常为领;王勇;王树鹏;张永铮 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京轻创知识产权代理有限公司 11212 |
代理人 |
杨立 |
主权项 |
一种分组聚集排序TopK查询处理方法,应用于分布式数据存储系统,其特征在于,包括:步骤一,接收分组聚集排序TopK查询请求;步骤二,各分布式数据节点根据所述查询请求,进行本地数据分组聚集,并将自身的分组聚集数据异步传输到集中处理节点;步骤三,所述集中处理节点采用哈希表结合二叉平衡树的数据结构对各分布式数据节点的分组聚集数据进行数据合并,并采用近似高频项统计算法进行统计,得到聚集排序后的高频项列表;步骤四,输出所述高频项列表。 |
地址 |
100029 北京市朝阳区裕民路甲3号 |