发明名称 一种在数据存储前去除重复数据的方法
摘要 本发明公开了一种在数据存储前根据待处理数据的组织特征来去除重复数据的方法,该方法旨在解决数据存储前对重复数据的识别、去除问题,其特征是在数据存储前利用待处理数据的组织特征将其切割为长度不等的子数据块并对每一子数据块生成一个标准标识符来识别是否存在重复数据,然后在数据存储前将数据进行处理,降低存储后重复数据删除误判的可能性。本发明通常在计算机数据归档、存储、备份、远程容灾、灾难恢复中用来识别重复的数据并仅保存其中一份而忽略其余,以达到提高计算机存储空间的有效利用率,同时降低带宽利用率,降低数据存储后的重复数据删除误判的几率,保障数据的一致性。
申请公布号 CN104281412A 申请公布日期 2015.01.14
申请号 CN201310278342.5 申请日期 2013.07.04
申请人 北京中科同向信息技术有限公司 发明人 邬玉良
分类号 G06F3/06(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F3/06(2006.01)I
代理机构 代理人
主权项 一种在数据存储前根据待处理数据的组织特征来去除重复数据的方法,其步骤如下:(1)判断待处理的数据组织结构是否与已存在的数据一致。(2)若一致则获取其结构类型的数据切割器,再将数据从硬盘加载到内存,传入待处理数据;如不一致,则获取数据结构的数据切割器,传入待处理数据。(3)将待处理数据由切割器分割为子数据块,并为子数据块生成唯一的标识符。(4)提取存储中数据的标识符、校验码并合并。(5)然后判断是否存在重复的标识符和校验码,并存储。
地址 100080 北京市海淀区成府路268号中科科仪1号楼508