发明名称 |
一种基于海量SequenceFile数据的分布式存储方法 |
摘要 |
本发明实施例公开了一种基于海量SequenceFile数据的分布式存储方法,涉及数据处理技术领域,实现对文本数据的二进制格式的存储,提高了插入和查询数据的速度。该基于海量SequenceFile数据的分布式存储方法包括:将同一类的批量文本数据打包为一行SequenceFile记录,并为SequenceFile所述记录配置用于查询的键,所述文本数据的数据内容作为SequenceFile记录的值,多行SequenceFile记录组成一个SequenceFile文件;将SequenceFile文件分割为多个子文件,并将所述多个子文件分发到集群的不同机器上存储。 |
申请公布号 |
CN102521361A |
申请公布日期 |
2012.06.27 |
申请号 |
CN201110421013.2 |
申请日期 |
2011.12.15 |
申请人 |
北京世纪高通科技有限公司 |
发明人 |
王宇轩;邓春柏 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京中博世达专利商标代理有限公司 11274 |
代理人 |
申健 |
主权项 |
一种基于海量SequenceFile数据的分布式存储方法,其特征在于,包括:将同一类的批量文本数据打包为一行SequenceFile记录,并为SequenceFile所述记录配置用于查询的键,所述文本数据的数据内容作为SequenceFile记录的值,多行SequenceFile记录组成一个SequenceFile文件;将SequenceFile文件分割为多个子文件,并将所述多个子文件分发到集群的不同机器上存储。 |
地址 |
100088 北京市海淀区学院路7号10层1002C室 |