发明名称 | 在重复数据删除系统中减少摘要存储消耗的方法和系统 | ||
摘要 | 本发明提供了通过使用计算环境中的处理器设备在重复数据删除系统中跟踪相似性搜索结构中的相似性元素的数目而减少摘要存储消耗的方法和系统。为了使用计算环境中的处理器设备降低重复数据删除系统中的摘要存储消耗,将输入数据分区为部块,并将部块分组为部块集。为输入数据计算摘要,并将摘要存储在对应于部块集的集合中。为输入数据计算相似性元素,并将相似性元素存储在相似性搜索结构中。为每个部块集保持当前包含在相似性搜索结构中的与部块集关联的相似性元素的数目,并且当特定部块集的此数目变得低于阈值时,从存储库中去除与该部块集关联的摘要集合。 | ||
申请公布号 | CN104199815A | 申请公布日期 | 2014.12.10 |
申请号 | CN201410096289.1 | 申请日期 | 2014.03.14 |
申请人 | 国际商业机器公司 | 发明人 | L.阿罗诺维克 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京市柳沈律师事务所 11105 | 代理人 | 邸万奎 |
主权项 | 一种通过使用计算环境中的处理器设备在重复数据删除系统中跟踪相似性搜索结构中的相似性元素的数目而减少摘要存储消耗的方法,包括:将输入数据分区为部块并将所述部块分组为部块集;为所述输入数据计算摘要并将所述摘要存储在对应于所述部块集的集合中;为所述输入数据计算相似性元素并将所述相似性元素存储在相似性搜索结构中;为每一个所述部块集保持当前包含在所述相似性搜索结构中的与所述部块集关联的相似性元素的数目;以及当一部块集的相似性元素的数目变得低于阈值时,从存储库中去除与该部块集关联的摘要集合。 | ||
地址 | 美国纽约阿芒克 |