发明名称 |
一种实现Hadoop文件处理的方法及装置 |
摘要 |
本发明公开了一种实现Hadoop文件处理的方法及装置,包括:读取需要处理的分布式文件系统(Hadoop)的文本文件;逐行提取文本文件并转换为映射(Map)规约(Reduce)接受的数据类型的内容;逐行读取转换后的文本文件内容,以确定是否进行断行处理。本发明通过将读取的文本文件直接转换为MapReduce接受的数据类型的内容,逐行的对处理为断行的内容进行确定,节省了预处理过程中删除CR造成的耗时,且不需要额外占用磁盘空间。 |
申请公布号 |
CN103970874A |
申请公布日期 |
2014.08.06 |
申请号 |
CN201410203430.3 |
申请日期 |
2014.05.14 |
申请人 |
浪潮(北京)电子信息产业有限公司 |
发明人 |
辛国茂;赵仁明;房体盈;亓开元 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京安信方达知识产权代理有限公司 11262 |
代理人 |
王丹;栗若木 |
主权项 |
一种实现Hadoop文件处理的方法,其特征在于,包括:读取需要处理的分布式文件系统Hadoop的文本文件;逐行提取文本文件并转换为映射Map规约Reduce接受的数据类型的内容;逐行读取转换后的文本文件内容,以确定是否进行断行处理。 |
地址 |
100085 北京市海淀区上地信息路2号2-1号C栋1层 |