一种海量非结构化数据的数据存储方法,申请号CN201510088785.7-传众专利搜索

发明名称	一种海量非结构化数据的数据存储方法
摘要	本发明公开了一种海量非结构化数据的数据存储方法。本方法为：1)设定一时间间隔T，将数据存储集群划分为多个分区，用于将同一时间间隔T内的记录存储到同一分区内；同时将每一分区划分为n个散列区；2)对于每条非结构化记录，提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key；3)根据每条记录的时间t，确定其要存储到的分区，然后根据该记录的关键信息key计算其在该分区中对应的散列区值；4)根据步骤3)的计算结果，将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数，如果记录数大于设定阈值K，则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。
申请公布号	CN104731864A	申请公布日期	2015.06.24
申请号	CN201510088785.7	申请日期	2015.02.26
申请人	国家计算机网络与信息安全管理中心;中国科学院信息工程研究所	发明人	王琦;刘阳;杨鹏;陈训逊;王树鹏;王勇;王振宇
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京君尚知识产权代理事务所(普通合伙) 11200	代理人	司立彬
主权项	一种海量非结构化数据的数据存储方法，其步骤为：1)设定一时间间隔T，将数据存储集群划分为多个分区，用于将同一时间间隔T内的记录存储到同一分区内；同时将每一分区划分为n个散列区；2)对于每条非结构化记录，提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key；3)根据每条记录的时间t，确定其要存储到的分区，然后根据该记录的关键信息key计算该记录在该分区中对应的散列区值；4)根据步骤3)的计算结果，将属于同一个时间间隔且散列区值相同的记录写入同一个文件F中并统计该文件F的记录数，如果记录数大于设定阈值K，则在当前散列区中创建另一文件进行存储。
地址	100029 北京市朝阳区裕民路甲3号