发明名称 | 一种删除重复数据的方法及装置 | ||
摘要 | 本发明公开了一种删除重复数据的方法,将第一文件和第二文件存储于存储节点中,包括:将第一文件划分成大小相同的多个第一数据块,将第二文件划分成与第一数据块大小相同的多个第二数据块;针对每个第一数据块和第二数据块均生成哈希值;当检测到N个连续的第二数据块与N个连续的第一数据块的哈希值完全相同时:针对该N个第一数据块生成第一虚拟重复对象,删除该N个第一数据块的哈希值,并针对该N个第一数据块重新生成一个哈希值;删除该N个第二数据块及其哈希值,并使该N个第二数据块的第二属性信息关联第一虚拟重复对象,这样不仅减少存储的哈希值数量,还可以保证查找重复数据的精度。本发明还公开了一种删除重复数据的装置。 | ||
申请公布号 | CN104484402A | 申请公布日期 | 2015.04.01 |
申请号 | CN201410775122.8 | 申请日期 | 2014.12.15 |
申请人 | 杭州华三通信技术有限公司 | 发明人 | 钟晋明 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京德琦知识产权代理有限公司 11018 | 代理人 | 陈舒维;宋志强 |
主权项 | 一种删除重复数据的方法,用于将第一文件和第二文件存储于存储节点中时,其特征在于,包括:将第一文件划分成大小相同的多个第一数据块,将第二文件划分成与所述第一数据块大小相同的多个第二数据块;其中,每个所述第二数据块具有第二属性信息,且针对每个第一数据块和第二数据块均生成哈希值;检测所述第二数据块的哈希值和所述第一数据块的哈希值是否相同,当检测到N个连续的第二数据块与N个连续的第一数据块的哈希值完全相同时:针对该N个第一数据块生成第一虚拟重复对象,删除该N个第一数据块的哈希值,并针对该N个第一数据块重新生成一个哈希值;删除该N个第二数据块及其哈希值,并修改该N个第二数据块的第二属性信息,使其关联所述第一虚拟重复对象。 | ||
地址 | 310052 浙江省杭州市滨江区长河路466号 |