发明名称 |
重复数据删除方法和装置 |
摘要 |
本发明提供一种重复数据删除方法和装置,方法包括:对待存储文件进行分块处理,计算分块处理结果中各分块的指纹;对各分块的指纹进行抽样处理,并根据抽取到的指纹生成待存储文件的指纹抽样表;根据指纹抽样表和分组抽样库,确定待存储文件在分组抽样库中所属的相似分组;根据指纹库中与所述相似分组对应的指纹分组中的指纹数据,对待存储文件进行重复数据删除。装置包括:分块模块、抽样模块、分组模块和重复数据删除模块。本发明解决了现有技术中重删时海量分块数据引入的计算量和资源消耗巨大的问题,缩减了重复数据删除中去重的计算量。 |
申请公布号 |
CN103150260B |
申请公布日期 |
2016.06.08 |
申请号 |
CN201110380773.3 |
申请日期 |
2011.11.25 |
申请人 |
华为数字技术(成都)有限公司 |
发明人 |
付旭东;徐君 |
分类号 |
G06F12/06(2006.01)I |
主分类号 |
G06F12/06(2006.01)I |
代理机构 |
北京同立钧成知识产权代理有限公司 11205 |
代理人 |
刘芳 |
主权项 |
一种重复数据删除方法,其特征在于,包括:对待存储文件进行分块处理,计算分块处理结果中各分块的指纹;对所述各分块的指纹进行抽样处理,并根据抽取到的指纹生成所述待存储文件的指纹抽样表;根据指纹抽样表和分组抽样库,确定所述待存储文件在所述分组抽样库中所属的相似分组;根据指纹库中与所述相似分组对应的指纹分组中的指纹数据,对所述待存储文件进行重复数据删除;其中,所述分组抽样库由至少一个抽样分组构成,所述指纹库由至少一个指纹分组构成,所述分组抽样库中的各抽样分组与所述指纹库中的各指纹分组一一对应,所述相似分组为所述分组抽样库中与所述待存储文件的指纹抽样表中的抽样指纹相匹配的一个抽样分组;所述对所述各分块的指纹进行抽样处理,并根据抽取到的指纹生成所述待存储文件的指纹抽样表,包括:根据所述待存储文件的文件特征,确定抽样因子,所述文件特征包括所述待存储文件的文件规模和分块数量;根据设定的抽样条件,利用所述抽样因子对所述待存储文件的所有分块的指纹进行抽样处理;将抽样结果中的各分块的指纹加入所述待存储文件的指纹抽样表中。 |
地址 |
611731 四川省成都市高新区西部园区清水河片区 |