发明名称 数据处理方法及数据处理设备
摘要 本发明实施例提供了数据处理方法及数据处理设备,如果待压缩的数据中包含了与重复数据库中的可变块的前半部分相同并且与可变块的后半部分不同的数据片段,则能够生成粒度小于发生匹配的可变块的新的可变块,并将新的可变块添加到重复数据库。新的可变块粒度较小,提高了后续的待压缩数据与更新后的重复数据库发生匹配的概率,进而提高了压缩的效率。
申请公布号 CN102684827B 申请公布日期 2015.07.29
申请号 CN201210053609.6 申请日期 2012.03.02
申请人 华为技术有限公司 发明人 滕新东
分类号 H04L1/00(2006.01)I;H04L12/70(2013.01)I 主分类号 H04L1/00(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 刘芳
主权项 一种数据处理方法,其特征在于,包括:根据指纹算法计算待压缩数据中的第一片段的第一指纹,所述第一片段的起始位置与所述待压缩数据的起始位置相同,所述第一片段的长度与第一滑窗的长度相同;在第一本地重复数据库中查找所述第一指纹,所述第一本地重复数据库用于存储重复数据、所述重复数据的指纹以及所述重复数据的摘要;如果所述第一本地重复数据库中存在所述第一指纹,则根据所述第一指纹获取所述第一本地重复数据库中的第一可变块以及所述第一可变块的摘要,所述第一指纹与根据所述指纹算法计算得到的所述第一可变块中的第一初始块的指纹相同,所述第一初始块的起始位置与所述第一可变块的起始位置相同,所述第一初始块的长度与所述第一滑窗的长度相同,所述第一可变块的摘要为根据摘要算法对所述第一可变块的摘要进行计算得到的;根据所述摘要算法计算所述待压缩数据中的第二片段的摘要,所述第二片段的起始位置与所述待压缩数据的起始位置相同,所述第二片段的长度与所述第一可变块的长度相同;比较所述第二片段的摘要与所述第一可变块的摘要;如果所述第二片段的摘要与所述第一可变块的摘要不同,则获取所述第二片段中的第一子片段,所述第一子片段与所述第一可变块中的第一子可变块相同,所述第一子片段的起始位置与所述第二片段的起始位置相同,所述第一子可变块的起始位置与所述第一可变块的起始位置相同,所述第二片段中的第二比特与所述第一可变块中的第一比特不同,所述第二比特为所述第二片段中所述第一子片段的下一个比特,所述第一比特为所述第一可变块中所述第一子可变块的下一个比特;将所述第一子片段、所述第一子片段的指纹以及所述第一子片段的摘要添加到所述第一本地重复数据库,生成第二本地重复数据库,所述第一子片段的指纹与所述第一指纹相同,所述第一子片段的摘要为根据所述摘要算法对所述第一子片段的摘要进行计算得到的。
地址 518129 广东省深圳市龙岗区坂田华为总部办公楼