发明名称 一种基于Hadoop集群的超大文件并行数据块定位方法
摘要 本发明公开了一种基于Hadoop集群的超大文件并行数据块定位方法,本发明是在Hadoop集群中应用Map/Reduce软件实现超大文件内多数据块定位的方法。本发明主要包括以下步骤:组建集群环境、构造序列文件、修改用户程序源代码和通过streaming方式调用用户程序,本发明通过控制Map的数量和序列,确定Map进程与多数据块之间的映射关系,并且可以定位数据块在文件中的位置,让指定Map进程处理指定数据块,同时本发明可以轻松实现超大文件的多数据块并行处理。
申请公布号 CN103699627A 申请公布日期 2014.04.02
申请号 CN201310712421.2 申请日期 2013.12.20
申请人 北京遥测技术研究所;航天长征火箭技术有限公司 发明人 孙彦猛;苏丽;刘文俊;张博为
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中国航天科技专利中心 11009 代理人 安丽
主权项 一种基于Hadoop集群的超大文件并行数据块定位方法,其特征在于包括步骤如下:步骤1:通过搭建Hadoop环境组建Hadoop集群,配置HDFS关键属性;步骤2:构造特定的序列文件;所述的特定序列文件的内容为整型数,每个整型数独占1行,序列文件中每行的值为每个map进程要处理的超大文件中的数据块的偏移量,序列文件的行数等于map进程的个数和需要处理的数据块的个数;构造序列文件的方法为如下方法的任意一种:(a)使用Microsoft Office Excel按列方式生成特定的序列,然后以列方式拷贝到文本文件中;(b)在vim编辑器命令模式下,键入命令生成特定的序列文件;(c)手动生成需要的不规则序列文件(d)通过批处理文件或脚本文件生成特定序列文件;步骤3:修改用户程序使用户程序能够接收由标准输入流传递的数据,将该数据转换成整型数据,并通过该整型数据设置程序中要读的超大文件中的数据块的起始地址;步骤4:通过Hadoop集群的streaming方式调用步骤(3)中修改后的用户程序和步骤(2)中的序列文件完成并行数据块的定位,完成并行数据定位的方法为:通过使用Hadoop集群的streaming方式实现定位程序并行化,通过步骤(2)中序列文件的超大数据的偏移量和步骤(3)中的超大文件的起始地址完成数据的定位。
地址 100076 北京市丰台区9200信箱74分箱