发明名称 数据去重
摘要 一种用于数据去重的方法包括接收从输入数据块集合中的数据块导出的散列集合310。所述方法包括:对所述散列集合进行采样320,使用索引识别出保存具有处在所述采样散列集合中的散列的数据块的数据块容器330,以及加载所识别出的数据块容器中的至少一个的索引340。所述方法包括:确定哪些散列对应于存储在与所加载的索引相对应的数据块容器中的数据块350,以及至少部分地基于所述确定来决定应当存储所述输入数据块集合中的哪些数据块。
申请公布号 CN102934097B 申请公布日期 2016.04.20
申请号 CN201080067520.4 申请日期 2010.10.08
申请人 惠普发展公司,有限责任合伙企业 发明人 K.埃什希;M.D.利利布里奇;D.M.富金德
分类号 G06F12/16(2006.01)I;G06F9/06(2006.01)I;G06F13/14(2006.01)I 主分类号 G06F12/16(2006.01)I
代理机构 中国专利代理(香港)有限公司 72001 代理人 马永利;李浩
主权项 一种用于数据去重的方法,包括:接收散列集合,其中所述散列集合中的每个散列是从输入数据块集合中的数据块导出的;基于散列比特的字符串中预定数目的比特中的每一个对所述散列集合进行采样以形成采样散列集合;使用索引识别出保存具有处在所述采样散列集合中的散列的数据块的数据块容器;把所识别出的数据块容器中的至少一个的具有采样散列集合的索引加载到存储器中;确定所述输入数据块集合中的哪些散列对应于存储在与所加载的索引相对应的数据块容器中的数据块;至少部分地基于确定所述输入数据块集合中的哪些散列对应于存储在与所加载的索引相对应的数据块容器中的数据块,决定应当存储所述输入数据块集合中的哪些数据块;以及把已决定要被存储的所述输入数据块集合中的数据块存储在一个或多个数据块容器中。
地址 美国德克萨斯州