发明名称 Hadoop分布式文件系统针对日志型小文件的存储和处理方法
摘要 本发明涉及计算机HDFS分布式文件系统领域,公开了一种HDFS针对日志型小文件的存储和处理方法,将文件按物理位置就近合并,同时使用Copy-On-Write机制优化小文件的读写。具体为,将日志型小文件按照物理路径就近合并,客户端读写日志型小文件时先从名字节点NameNode读取合并文件和合并文件索引的元数据Metadata信息,然后根据合并文件索引从合并文件中读写各个日志型小文件数据。本发明针对日志型小文件,提出了一种新的处理方法,该方法将小文件metadata的内存负担从NameNode转移到了客户端,有效的解决了HDFS处理大量小文件的低效问题。客户端缓存小文件metadata也使得小文件的访问得到加速,多次连续访问物理位置临近的小文件时无需向NameNode请求metadata。
申请公布号 CN104731921A 申请公布日期 2015.06.24
申请号 CN201510137574.8 申请日期 2015.03.26
申请人 江苏物联网研究发展中心;北京科电高技术公司 发明人 徐锐;刘斌;台宪青
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 无锡市大为专利商标事务所(普通合伙) 32104 代理人 曹祖良;韩凤
主权项 Hadoop分布式文件系统针对日志型小文件的存储和处理方法,所述Hadoop分布式文件系统HDFS包括一个Hadoop集群,集群中包含一个名字节点和多个数据节点,多个客户端通过客户端库访问Hadoop集群存储的文件,其特征在于:所述Hadoop集群中的日志型小文件按照物理路径就近合并,客户端读写日志型小文件时先从名字节点读取合并文件和合并文件索引的元数据信息,然后根据合并文件索引从合并文件中读写各个日志型小文件数据。
地址 214135 江苏省无锡市新区菱湖大道200号中国传感网国际创新园C座