发明名称 一种删除重复数据的方法及装置
摘要 本发明公开了一种删除重复数据的方法,将第一文件和第二文件存储于存储节点中,包括:将第一文件划分成大小相同的多个第一数据块,将第二文件划分成与第一数据块大小相同的多个第二数据块;针对每个第一数据块和第二数据块均生成哈希值;当检测到N个连续的第二数据块与N个连续的第一数据块的哈希值完全相同时:针对该N个第一数据块生成第一虚拟重复对象,删除该N个第一数据块的哈希值,并针对该N个第一数据块重新生成一个哈希值;删除该N个第二数据块及其哈希值,并使该N个第二数据块的第二属性信息关联第一虚拟重复对象,这样不仅减少存储的哈希值数量,还可以保证查找重复数据的精度。本发明还公开了一种删除重复数据的装置。
申请公布号 CN104484402A 申请公布日期 2015.04.01
申请号 CN201410775122.8 申请日期 2014.12.15
申请人 杭州华三通信技术有限公司 发明人 钟晋明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 陈舒维;宋志强
主权项 一种删除重复数据的方法,用于将第一文件和第二文件存储于存储节点中时,其特征在于,包括:将第一文件划分成大小相同的多个第一数据块,将第二文件划分成与所述第一数据块大小相同的多个第二数据块;其中,每个所述第二数据块具有第二属性信息,且针对每个第一数据块和第二数据块均生成哈希值;检测所述第二数据块的哈希值和所述第一数据块的哈希值是否相同,当检测到N个连续的第二数据块与N个连续的第一数据块的哈希值完全相同时:针对该N个第一数据块生成第一虚拟重复对象,删除该N个第一数据块的哈希值,并针对该N个第一数据块重新生成一个哈希值;删除该N个第二数据块及其哈希值,并修改该N个第二数据块的第二属性信息,使其关联所述第一虚拟重复对象。
地址 310052 浙江省杭州市滨江区长河路466号