发明名称 |
适用于工作负载保护系统的重复数据删除方法 |
摘要 |
本发明提供了一种适用于工作负载保护系统的重复数据删除方法,包括如下步骤:A.对所有已存储文件进行预处理,并建立数据结构;B.通过预处理数据结构实现待存储文件与已存储文件进行匹配;C.判断待存储文件是否为重复数据,如果待存储文件是重复数据,那么不必将待存储文件保存至备份系统,如果待存储文件不是重复数据,那么将待存储文件保存至备份系统中。本发明的有益效果是本发明的方法通过将待存储文件与经预处理的已存储文件进行匹配,然后判断待存储文件是否为重复数据,如果待存储文件是重复数据,那么不必将待存储文件保存至备份系统,如果待存储文件不是重复数据,那么将待存储文件保存至备份系统中,使得提高了备份速度。 |
申请公布号 |
CN102184198B |
申请公布日期 |
2016.04.27 |
申请号 |
CN201110102183.4 |
申请日期 |
2011.04.22 |
申请人 |
张伟;北京信息科技大学;深圳市广道高新技术有限公司 |
发明人 |
张伟;徐涛 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市科吉华烽知识产权事务所(普通合伙) 44248 |
代理人 |
胡吉科 |
主权项 |
一种适用于工作负载保护系统的重复数据删除方法,其特征在于,包括如下步骤:A.对所有已存储文件进行预处理,并建立数据结构;B.通过预处理数据结构实现待存储文件与已存储文件进行匹配;C.判断待存储文件是否为重复数据,如果待存储文件是重复数据,那么不必将待存储文件保存至备份系统,如果待存储文件不是重复数据,那么将待存储文件保存至备份系统中;在所述步骤A中还包括如下步骤:A1. 对已存储文件中的字符串进行抽取,将抽取的字符串组成布尔表达式,且每个已存储文件均对应一个布尔表达式,所有的布尔表达式组成布尔表达式集合;A2. 将所有布尔表达式所包括的字符串进行提取组成字符串集合;A3. 根据布尔表达式集合和字符串集合构建数据结构;在所述步骤A3中包括如下步骤:A31. 构建布尔表达式集合中的布尔表达式与字符串集合中的字符串的关联关系;A32. 根据布尔表达式集合及字符串集合确定跳跃表及哈希表大小,并构建入口哈希函数h1和h2;A33. 根据字符串集合构建跳跃表,并确定跳跃表的跳跃距离;A34. 根据字符串集合构建哈希表;A35. 为每个布尔表达式构建计数器,并将计数器初始化为零。 |
地址 |
100101 北京市朝阳区安翔路1号丝竹园小区7号楼7-602 |