发明名称 消除文件存储系统中冗余文件的系统及方法
摘要 本发明公开了一种消除文件存储系统中冗余文件的系统,包括由存储服务器模块和索引服务器模块组成的海量存储系统,还包括有获取文件MD5值和文件大小的预处理模块、根据文件MD5值和文件大小进行文件引用数统计的快速存取模块以及在文件引用数达到指定阈值时删除重复文件的去重服务器模块,其中所述索引服务器模块、存储服务器模块、预处理模块依次连接,快速存取模块、索引服务器模块、存储服务器模块、预处理模块分别与去重服务模块连接。本发明还提供一种对应的消除文件存储系统中冗余文件的方法。本发明通过文件的MD5值及文件大小快速找出海量存储系统中的冗余文件并进行去重操作,可较好的控制存储成本。
申请公布号 CN100565512C 申请公布日期 2009.12.02
申请号 CN200610036536.4 申请日期 2006.07.10
申请人 腾讯科技(深圳)有限公司 发明人 熊展志;张立明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市顺天达专利商标代理有限公司 代理人 郭伟刚;蔡晓红
主权项 1、一种消除文件存储系统中冗余文件的系统,包括由存储服务器模块和索引服务器模块组成的海量存储系统,其特征在于,还包括:预处理模块,用于获取文件MD5值、文件大小及文件的引用数;快速存取模块,包括内存哈希映射表及哈希表;去重服务器模块,用于通过哈希算法将文件MD5值进行哈希变换后,经由内存哈希映射表映射到对应哈希表,在文件的引用数超过最小引用数时,直接根据文件生成节点并将节点加入所述哈希表;在文件的引用数小于最小引用数时,将该文件的引用数加到映射表中与该文件的MD5值和文件大小都相同的节点,并在哈希表中的节点引用数达到最大引用数时,对节点文件进行去重操作;其中所述索引服务器模块、存储服务器模块、预处理模块依次连接,快速存取模块、索引服务器模块、存储服务器模块、预处理模块分别与去重服务器模块连接。
地址 518057广东省深圳市高新科技园南区高新南一道飞亚达高科技大厦5-10层