发明名称 一种基于Hadoop中小文件优化和倒排索引的方法
摘要 本发明公开了一种基于Hadoop中小文件优化和倒排索引的方法,能够向HDFS分布式文件系统上传海量小文件和对HDFS分布式文件系统上的文件建立倒排索引,所述方法包括小文件优化和建立倒排索引过程;主要包括以下步骤:(1)用户向Hadoop上传大量相对于HDFS块大小的小文件到小文件队列;(2)定时计算文件队列中小文件的大小;(3)使用Sequencefile序列文件方法将达到要求的小文件队列中的文件进行合并后上传到HDFS;(4)对HDFS上的文件建立倒排索引。该方法针对Hadoop处理小文件方便的不足提出优化方案,能够优化小文件的处理性能,释放内存,提高检索的速度和效率。
申请公布号 CN103678491A 申请公布日期 2014.03.26
申请号 CN201310563664.4 申请日期 2013.11.14
申请人 东南大学 发明人 吴含前;姚莉;马风新;李露
分类号 G06F17/30(2006.01)I;G06F3/06(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京瑞思知识产权代理事务所(普通合伙) 11341 代理人 李涛
主权项 一种基于Hadoop中小文件优化和倒排索引的方法,所述方法能够向分布式文件系统上传海量小文件和对分布式文件系统上的文件建立倒排索引,其特征在于,所述方法包括小文件优化和建立倒排索引过程;其中:1)小文件优化的步骤包括:1.1)首先用户上传文件到云存储平台,系统判断该文件是否属于小文件,如果是,就将该文件交给小文件处理模块处理,进行步骤1.2);如果不是,则直接进行步骤1.3),将该文件存入分布式文件系统;1.2)把步骤1.1)传过来的小文件存储到小文件队列中去,在所述小文件处理模块中开启定时任务,采用判断模块间隔计算所述小文件队列中文件的总大小;1.3)把所述小文件队列中的全部小文件一次性的交给文件合并模块,通过序列文件以文件名作键,相应的文件内容为值,将这些小文件一次性写入分布式文件系统,同时删除已处理过的文件;2)建立倒排索引过程的步骤包括:2.1)建立倒排索引的映射过程映射过程把输入的文本文档按照文档标识号分成M片段,处理成组合形式为J〈文档号,文本内容〉的键值对,然后把键值对分发到多个处理节点上,所述处理节点把J〈文档号,文本内容〉作为一个映射过程的输入,分别对每一个文档号对应的文档内容进行词语切分,并统计单词的出现频率,最后形成组合形式为K〈关键字+文档名,词频〉的键值对,这里的词频统一设置为1;2.2)建立倒排索引的合并过程合并过程阶段的输入是映射过程的输出结果,在这个阶段是将键值对中有相同键的值进行归并,把他们放在一个列表里面,所述合并过程处理后的数据形式是L〈文档名,词频〉的键值对格式,这里的词频是一篇文档中的总词频;2.3)建立倒排索引的化简过程合并过程中输出的键值对作为化简过程的输入,在这个阶段是将同一个关键字的所有形式为L〈文档名,词频〉的值进行字符串连接合并,形成格式为N〈关键字文档名,词频〉的倒排索引并输出到分布式文件系统,然后,整理键值对。
地址 215123 江苏省苏州市工业园区仁爱路188号