发明名称 一种大数据多区间查询条件下的基数估计方法及装置
摘要 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。
申请公布号 CN103544258A 申请公布日期 2014.01.29
申请号 CN201310484503.6 申请日期 2013.10.16
申请人 国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 发明人 云晓春;徐小琳;王明华;刘阳;李志辉;吴广君;王树鹏;王勇;常为领
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京轻创知识产权代理有限公司 11212 代理人 杨立
主权项 一种大数据多区间查询条件下的基数估计方法,其特征在于,包括以下步骤:步骤1:按照数值属性对大数据预先划分成多个分区,每个分区内保存所述大数据中的一段数据源,各个分区之间有序排列;步骤2:建立树形索引结构,每个分区作为树形索引结构的一个节点,每个节点用于记录对应的分区的最大值和最小值,每个节点中设置数据文件和基数估算器;步骤3:获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;步骤4:将经过倒排索引处理的数据源的相应部分分别写入数据文件及基数估算器内;步骤5:根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器中的数据源的相应部分进行逻辑处理,得到基数估算值。
地址 100029 北京市朝阳区裕民路甲3号