支持海量数据分组统计的智能索引构建、查询及维护方法,申请号CN201511001092.6-传众专利搜索

发明名称	支持海量数据分组统计的智能索引构建、查询及维护方法
摘要	本发明提供了一种支持海量数据分组统计的智能索引构建、查询及维护方法，属于大数据处理技术领域。本方法建立了智能索引的数据组织结构，以使智能索引支持海量数据分组统计；智能索引的数据组织结构包括索引元数据和索引数据，索引元数据是创建索引的依据，包括分组列簇和统计列簇，索引数据是对原始数据构建的索引。本方法在写入数据时在内存中实时创建智能索引，利用智能索引进行分组统计的操作，也可快捷对智能索引进行删除。本发明实现了对海量数据的实时自动创建索引，在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间，从而大幅提高了分组统计效率，并实现了对索引数据全生命周期的自动管理。
申请公布号	CN105631003A	申请公布日期	2016.06.01
申请号	CN201511001092.6	申请日期	2015.12.28
申请人	北京赛思信安技术股份有限公司	发明人	李斌斌;周游
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京永创新实专利事务所 11121	代理人	祗志洁
主权项	一种支持海量数据分组统计的智能索引构建、查询及维护方法，其特征在于，通过如下四方面实现：第一方面，建立智能索引的数据组织结构；智能索引的数据组织结构包括索引元数据和索引数据；索引元数据是创建索引的依据，包括分组列簇和统计列簇；分组列簇采用二维表存储，存储信息包括分组字段名称、分组字段类型和分组方式；统计列簇采用二维表存储，存储信息包括统计字段名称、统计字段类型和统计方式；分组字段类型和统计字段类型均包括整型、字符型和时间类型，分组方式包括区间、等值和哈希，统计方式包括聚合、平均值、最大值、最小值、方差和求和；索引数据是对原始数据构建的索引，一个原始数据块对应一个索引数据块，每个索引数据块包括分组数值区和统计数值区两部分；分组数值区由字典组成，一个字典对应一个分组字段，每个字典包括分组字段值及应用的位置ID，分组字段值和位置ID均使用有序链表存储；统计数值区根据位置ID分段按行存储，每个段按位置ID排序，使用有序链表存储；第二方面，在写入数据时在内存中实时创建智能索引；根据索引元数据确定分组字段和统计字段，对每条原始记录在内存中计算，包括对分组字段按分组方式计算和对统计字段按统计方式计算，更新分组数值区链表和统计数值区链表，将索引数据持久化到磁盘；第三方面，利用智能索引进行分组统计的操作；通过判定器判读本次统计是否能使用智能索引，当能使用时，通过执行器读取索引数据，通过汇聚器对分组值进行汇聚计算；第四方面，实现对智能索引的删除操作；预设原始数据与索引数据物理存储规则，根据待删除的原始数据块存储路径，来构造索引数据存储路径，将建立的索引数据删除。
地址	100125 北京市朝阳区霞光里8号承冀诚大厦二层