发明名称 | 一种大规模图数据的压缩存储方法 | ||
摘要 | 本发明公开了一种大规模图数据的压缩存储方法,包括:(1)将原始图数据以行为单位用二进制邻接矩阵M存储;(2)根据邻接矩阵M中每行的偏移值建立散列索引;(3)将邻接矩阵M中每行中的起点按照出度进行升序排序;(4)记录入度为0的节点记为根节点,将根节点按照出度进行降序排序,记为根节点序列;(5)对于根节点序列中的每个节点,以根节点为开始节点,按深度优先策略依次分配ID;(6)遍历邻接矩阵M,将矩阵按照新分配的ID进行转换,以边序列格式存储;(7)对边序列格式数据进行排序;(8)将边序列格式数据按行进行压缩存储。本发明需要的数据存储空间小,随机读取次数少且线程并行度高。 | ||
申请公布号 | CN103701469B | 申请公布日期 | 2016.08.31 |
申请号 | CN201310733597.6 | 申请日期 | 2013.12.26 |
申请人 | 华中科技大学 | 发明人 | 袁平鹏;金海;张文娅;吴步文 |
分类号 | H03M7/30(2006.01)I | 主分类号 | H03M7/30(2006.01)I |
代理机构 | 华中科技大学专利中心 42201 | 代理人 | 朱仁玲 |
主权项 | 一种大规模图数据的压缩存储方法,包括以下步骤:(1)将邻接矩阵格式的原始图数据进行处理,以行为单位用二进制邻接矩阵形式存储,邻接矩阵设为变量M,记录每个节点的出度;(2)根据邻接矩阵M中每行的偏移值建立散列索引HashIndex,其中每一行存储信息为起点、终点数目和起点对应的终点序列;(3)遍历邻接矩阵M,将邻接矩阵M中按照每行中起点的出度进行升序排序;(4)遍历图中结点,记录入度为0的节点记为根节点,将根节点按照出度进行降序排序,记为根节点序列rootList;(5)对于根节点序列中的每个节点,以根节点为开始节点,按深度优先策略依次分配ID;(6)遍历邻接矩阵M,将矩阵按照新分配的ID进行转换,以边序列格式(Edge List Format)存储;(7)对边序列格式数据进行排序,排序策略为终点优先起点其次,排序方式为并行多路归并的外部排序;(8)将边序列格式数据按行进行压缩存储。 | ||
地址 | 430074 湖北省武汉市洪山区珞喻路1037号 |