发明名称 一种基于海量SequenceFile数据的分布式存储方法
摘要 本发明实施例公开了一种基于海量SequenceFile数据的分布式存储方法,涉及数据处理技术领域,实现对文本数据的二进制格式的存储,提高了插入和查询数据的速度。该基于海量SequenceFile数据的分布式存储方法包括:将同一类的批量文本数据打包为一行SequenceFile记录,并为SequenceFile所述记录配置用于查询的键,所述文本数据的数据内容作为SequenceFile记录的值,多行SequenceFile记录组成一个SequenceFile文件;将SequenceFile文件分割为多个子文件,并将所述多个子文件分发到集群的不同机器上存储。
申请公布号 CN102521361A 申请公布日期 2012.06.27
申请号 CN201110421013.2 申请日期 2011.12.15
申请人 北京世纪高通科技有限公司 发明人 王宇轩;邓春柏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中博世达专利商标代理有限公司 11274 代理人 申健
主权项 一种基于海量SequenceFile数据的分布式存储方法,其特征在于,包括:将同一类的批量文本数据打包为一行SequenceFile记录,并为SequenceFile所述记录配置用于查询的键,所述文本数据的数据内容作为SequenceFile记录的值,多行SequenceFile记录组成一个SequenceFile文件;将SequenceFile文件分割为多个子文件,并将所述多个子文件分发到集群的不同机器上存储。
地址 100088 北京市海淀区学院路7号10层1002C室