发明名称 一种重复数据的压缩方法
摘要 本发明公开了一种计算机重复数据的压缩方法,利用本方法可在较短时间内较大程度地提高重复数据的压缩比率。本发明通过如下步骤实现:首先,比较程序比较相同类型的同名文件发生变化时的异同情况,并获得相应的数据块变化表;然后,分析程序分析同类型文件的所有数据块变化表,求得该类型文件的最佳分割方式,并将其保存于类型分割信息库;最后,当需要压缩某类型文件的重复数据时,调用类型分割信息库中该类型文件的最佳分割方式压缩待处理文件中的重复数据,即可实现最大程度的压缩率。
申请公布号 CN101320372B 申请公布日期 2012.07.04
申请号 CN200810037869.8 申请日期 2008.05.22
申请人 上海爱数软件有限公司 发明人 贺鸿富
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 谢安昆;宋志强
主权项 一种重复数据的压缩方法,该方法包括一个比较过程、一个分析过程和一个压缩过程,其特征为以下步骤:a)所述比较过程比较相同类型的同名文件发生变化时的异同情况,并将能体现所述变化时的异同情况的差异结果保存为一个数据块变化表;b)所述分析过程分析同类型文件的所有数据块变化表以获得该类型文件的最佳分割方式,并将其保存于类型分割信息库;其中,所述最佳分割方式是指将某类型文件按某种方式分割为若干数据块,且利用分割后的数据块可最大程度地识别同类型文件中与其相同的数据块的分割方式,包括:该类型文件长度已知部分的最佳分割方式,以及该类型文件长度未知部分的最佳分割方式;所述该类型文件长度已知部分的最佳分割方式为:从该类型文件的所有数据块变化表中的每一数据块变化表的0字节开始,将各数据块变化表的第一个数据块作为当前块,并取出当前块的上限值,选择各数据块变化表的当前块中一个最小值作为上限值,以该上限值作为第一个数据块的结束位置,以及第二个数据块的开始位置,依次类推,所得到的所有数据块的最佳分割方式的组合;所述该类型文件长度未知部分的最佳分割方式为:以该类型文件长度已知部分最佳分割方式分割的数据块的平均间距值以内,最接近1024的倍数的值,作为该类型文件长度未知部分的数据块固定分割长度的分割方式;c)在进行数据压缩时,所述压缩过程首先判断待压缩文件的类型,然后根据该文件类型从类型分割信息库中调用该类型文件的最佳分割方式,并将待压缩文件按该最佳分割方式分割为若干数据块,查找是否存在与分割后的数据块相同的数据块,若存在相同的数据块,则该数据块为重复数据,对于重复数据,不将其保存到存储器中,而是采用指针方式指向原已保存的相同数据块,对于不重复数据,则保存到存储器中。
地址 201112 上海市闵行区联航路1188号10号楼2层