一种基于HDFS的小文件优化存储方法,申请号CN201310561745.0-传众专利搜索

发明名称	一种基于HDFS的小文件优化存储方法
摘要	本发明公开一种基于HDFS的小文件优化存储方法，提高HDFS对小文件的读取效率，提升系统的整体性能。包括以下步骤：1）小文件合并与存储预处理，通过对文件过滤、小文件合并、元数据的生成、对象ID的生成实现小文件存储预处理。2）文件以合并的方式存储到HDFS中后，小文件与HDFS中合并文件的映射关系以文件元数据的形式存储到小文件元数据中，文件的目录结构存储在文件名中。元数据采用基于Chord协议的分布式集群存储。3）文件目录结构优化，将元数据键值key的生成分解为DirectoryID和SmallFileID。DirectoryID作为元数据跳转到元数据集群中结点的key值，实现了同一目录下文件存储到同一结点。SmallFileID在元数据结点中生成，实现每一个元数据对应一个全局唯一的ID标识。
申请公布号	CN103577123A	申请公布日期	2014.02.12
申请号	CN201310561745.0	申请日期	2013.11.12
申请人	河海大学	发明人	毛莺池;闵伟;戚荣志;陈曦;王康;任道宁
分类号	G06F3/06(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F3/06(2006.01)I
代理机构	南京苏高专利商标事务所(普通合伙) 32204	代理人	李玉平
主权项	一种基于HDFS的小文件优化存储方法，用于海量小文件数据的存储管理，其特征在于，包括三个方面：小文件合并与存储预处理，元数据分布式存储，以及文件目录结构优化；1）小文件合并与存储预处理：通过对文件过滤、小文件合并、元数据的生成、对象ID的生成实现小文件存储预处理；文件过滤和文件合并在客户端完成；元数据生成和元数据对象ID的生成在名字节点NameNode端完成；文件过滤是用来判断客户端传送的文件是否为小文件；文件合并将通过过滤的小文件以尾部添加的方式合并，生成合并文件；若新添加的小文件超过合并文件的剩余空间，则需要申请新的文件块；通过小文件合并前后输入与输出信息，系统可以实现小文件与合并文件之间的映射，映射关系以小文件元数据<key,value>键值对的形式存储在元数据集群，同时生成元数据对象ID，即目录ID，包括路径命名空间和目录属性，并作为目录元数据；2）元数据分布式存储：小文件元数据<key,value>键值对采用基于Chord协议的分布式集群存储；通过目录ID指向Chord中的相应结点，使得相关联的小文件的元数据存放于同一目录下；3）文件目录结构优化：将文件目录层次结构写到对象块的ID中，即目录ID中，使其能够反映对象之间的命名空间关系，实现元数据索引本地化；目录结构优化是将元数据键值key的生成分解为DirectoryID和SmallFileID。DirectoryID作为元数据跳转到元数据集群中结点的key值，实现了同一目录下文件存储到同一结点；SmallFileID在元数据结点中生成，实现每一个元数据对应一个全局唯一的ID标识；根据多叉树深度遍历方式，采用基于深度的目录层次空间分配算法，实现小文件快速定位与访问。
地址	210098 江苏省南京市西康路1号