发明名称 一种基于文件内容类型的重复数据删除方法
摘要 一种基于文件内容类型的重复数据删除方法,属于计算机数据备份的重复数据删除方法,适用于基于磁盘的备份系统,解决现有重复数据删除方法存在的分块策略单一,不能根据文件内容类型进行优化的问题。本发明预先进行块边界特征计算步骤,以下顺序包括内容类型识别步骤、文件分块步骤、数字指纹计算步骤、重复数据块判断步骤和结束步骤。本发明基于内容类型对备份文件进行分类,并针对每种内容类型计算最优的块边界特征值;在处理备份文件时增加了文件内容类型识别步骤,并根据识别结果选择块边界特征,提高了重复数据删除方法在处理复合备份文件时的整体效能。
申请公布号 CN101706825A 申请公布日期 2010.05.12
申请号 CN200910273171.0 申请日期 2009.12.10
申请人 华中科技大学 发明人 周敬利;秦磊华;曾东;聂雪军;刘科;朱建峰
分类号 G06F17/30(2006.01)I;G06F11/14(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 方放
主权项 一种基于文件内容类型的重复数据删除方法,预先进行块边界特征计算步骤:在备份系统中采集样本文件集合,提取样本文件的元数据,并根据元数据确定样本文件的内容类型,再根据样本文件的内容类型将样本文件集合分类为多个子集合,计算每个子集合的块边界特征值,将各个子集合的块边界特征值保存在块边界特征库中;以下顺序包括:A.内容类型识别步骤:提取用户输入文件的元数据,并根据元数据确定文件的内容类型,根据文件的内容类型在块边界特征库中寻找对应的块边界特征值;B.文件分块步骤:根据步骤A中寻找到的块边界特征值,采用滑动窗口对用户输入文件整体进行扫描,将用户输入文件划分为多个数据块;C.数字指纹计算步骤:对步骤B中产生的每个数据块,计算其哈希(HASH)值作为该数据块的数字指纹,转步骤D;D.重复数据块判断步骤:将步骤C中生成的哈希值与存储池中的哈希值表中的哈希值进行比较,判断是否相同,是则仅将该哈希值存入文件的索引节点中,转步骤E;否则把该哈希值存入哈希值表以及文件的索引节点中,并将对应的数据块写入存储池中,转步骤E;E.结束步骤:当前文件重复数据删除结束,当用户输入下一文件时,转步骤A;所述存储池存储哈希值表和数据块,该哈希值表中包含所存储每个数据块的哈希值以及在磁盘上的地址,所存储的所有数据块不重复;所述文件的元数据包括文件的内容类型、文件扩展名、生成文件的应用程序以及文件内容的编码方式,其中,文件扩展名、生成文件的应用程序以及文件内容的编码方式三种元数据构成一个元数据三元组,形为{扩展名,应用程序,编码方式}。
地址 430074 湖北省武汉市洪山区珞喻路1037号