发明名称 | 用于数据去重复的自适应索引 | ||
摘要 | 本发明公开了用于数据去重复的自适应索引。根据本发明的一方面,其涉及数据去重复技术,其中散列索引服务的索引和/或索引操作是自适应的而平衡去重复性能节省、吞吐量和资源耗费。索引服务可采用使用对应于块尺寸的不同级别的分层分块、含有少于全部散列索引(或者子空间)的散列值的紧凑签名的经采样的紧凑索引表、和/或基于子空间的数据与另一个子空间的数据和/或传入的数据块的类似性的选择性的子空间索引。 | ||
申请公布号 | CN102609442A | 申请公布日期 | 2012.07.25 |
申请号 | CN201110448888.1 | 申请日期 | 2011.12.28 |
申请人 | 微软公司 | 发明人 | J·李;S·森古普塔 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 上海专利商标事务所有限公司 31100 | 代理人 | 张欣 |
主权项 | 一种在计算环境中、至少部分地在至少一个处理器上执行的方法,包括:选择(412)在索引去重复文件的一个或多个块时使用的粒度级别;以及对于在所选粒度级别的每一个块散列(114),判定关于所述块散列是否已经是被索引的或者是非索引的块散列。 | ||
地址 | 美国华盛顿州 |