发明名称 用于数据去重复的自适应索引
摘要 本发明公开了用于数据去重复的自适应索引。根据本发明的一方面,其涉及数据去重复技术,其中散列索引服务的索引和/或索引操作是自适应的而平衡去重复性能节省、吞吐量和资源耗费。索引服务可采用使用对应于块尺寸的不同级别的分层分块、含有少于全部散列索引(或者子空间)的散列值的紧凑签名的经采样的紧凑索引表、和/或基于子空间的数据与另一个子空间的数据和/或传入的数据块的类似性的选择性的子空间索引。
申请公布号 CN102609442A 申请公布日期 2012.07.25
申请号 CN201110448888.1 申请日期 2011.12.28
申请人 微软公司 发明人 J·李;S·森古普塔
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 张欣
主权项 一种在计算环境中、至少部分地在至少一个处理器上执行的方法,包括:选择(412)在索引去重复文件的一个或多个块时使用的粒度级别;以及对于在所选粒度级别的每一个块散列(114),判定关于所述块散列是否已经是被索引的或者是非索引的块散列。
地址 美国华盛顿州