发明名称 一种实现Hadoop文件处理的方法及装置
摘要 本发明公开了一种实现Hadoop文件处理的方法及装置,包括:读取需要处理的分布式文件系统(Hadoop)的文本文件;逐行提取文本文件并转换为映射(Map)规约(Reduce)接受的数据类型的内容;逐行读取转换后的文本文件内容,以确定是否进行断行处理。本发明通过将读取的文本文件直接转换为MapReduce接受的数据类型的内容,逐行的对处理为断行的内容进行确定,节省了预处理过程中删除CR造成的耗时,且不需要额外占用磁盘空间。
申请公布号 CN103970874A 申请公布日期 2014.08.06
申请号 CN201410203430.3 申请日期 2014.05.14
申请人 浪潮(北京)电子信息产业有限公司 发明人 辛国茂;赵仁明;房体盈;亓开元
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京安信方达知识产权代理有限公司 11262 代理人 王丹;栗若木
主权项 一种实现Hadoop文件处理的方法,其特征在于,包括:读取需要处理的分布式文件系统Hadoop的文本文件;逐行提取文本文件并转换为映射Map规约Reduce接受的数据类型的内容;逐行读取转换后的文本文件内容,以确定是否进行断行处理。
地址 100085 北京市海淀区上地信息路2号2-1号C栋1层