发明名称 支持海量数据分组统计的智能索引构建、查询及维护方法
摘要 本发明提供了一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。本方法建立了智能索引的数据组织结构,以使智能索引支持海量数据分组统计;智能索引的数据组织结构包括索引元数据和索引数据,索引元数据是创建索引的依据,包括分组列簇和统计列簇,索引数据是对原始数据构建的索引。本方法在写入数据时在内存中实时创建智能索引,利用智能索引进行分组统计的操作,也可快捷对智能索引进行删除。本发明实现了对海量数据的实时自动创建索引,在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间,从而大幅提高了分组统计效率,并实现了对索引数据全生命周期的自动管理。
申请公布号 CN105631003A 申请公布日期 2016.06.01
申请号 CN201511001092.6 申请日期 2015.12.28
申请人 北京赛思信安技术股份有限公司 发明人 李斌斌;周游
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京永创新实专利事务所 11121 代理人 祗志洁
主权项 一种支持海量数据分组统计的智能索引构建、查询及维护方法,其特征在于,通过如下四方面实现:第一方面,建立智能索引的数据组织结构;智能索引的数据组织结构包括索引元数据和索引数据;索引元数据是创建索引的依据,包括分组列簇和统计列簇;分组列簇采用二维表存储,存储信息包括分组字段名称、分组字段类型和分组方式;统计列簇采用二维表存储,存储信息包括统计字段名称、统计字段类型和统计方式;分组字段类型和统计字段类型均包括整型、字符型和时间类型,分组方式包括区间、等值和哈希,统计方式包括聚合、平均值、最大值、最小值、方差和求和;索引数据是对原始数据构建的索引,一个原始数据块对应一个索引数据块,每个索引数据块包括分组数值区和统计数值区两部分;分组数值区由字典组成,一个字典对应一个分组字段,每个字典包括分组字段值及应用的位置ID,分组字段值和位置ID均使用有序链表存储;统计数值区根据位置ID分段按行存储,每个段按位置ID排序,使用有序链表存储;第二方面,在写入数据时在内存中实时创建智能索引;根据索引元数据确定分组字段和统计字段,对每条原始记录在内存中计算,包括对分组字段按分组方式计算和对统计字段按统计方式计算,更新分组数值区链表和统计数值区链表,将索引数据持久化到磁盘;第三方面,利用智能索引进行分组统计的操作;通过判定器判读本次统计是否能使用智能索引,当能使用时,通过执行器读取索引数据,通过汇聚器对分组值进行汇聚计算;第四方面,实现对智能索引的删除操作;预设原始数据与索引数据物理存储规则,根据待删除的原始数据块存储路径,来构造索引数据存储路径,将建立的索引数据删除。
地址 100125 北京市朝阳区霞光里8号承冀诚大厦二层