发明名称 |
一种海量非结构化数据的数据存储方法 |
摘要 |
本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。 |
申请公布号 |
CN104731864A |
申请公布日期 |
2015.06.24 |
申请号 |
CN201510088785.7 |
申请日期 |
2015.02.26 |
申请人 |
国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 |
发明人 |
王琦;刘阳;杨鹏;陈训逊;王树鹏;王勇;王振宇 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
司立彬 |
主权项 |
一种海量非结构化数据的数据存储方法,其步骤为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算该记录在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一个时间间隔且散列区值相同的记录写入同一个文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。 |
地址 |
100029 北京市朝阳区裕民路甲3号 |