发明名称 一种历史感知的数据去重碎片消除方法与系统
摘要 本发明公开了一种应用于数据去重系统中的碎片消除方法,该方法利用历史信息准确地识别碎片,系统内存开销少且恢复吞吐率高。该方法首先对数据流中的文件进行分块、求指纹,查询索引找到重复数据块;然后在上次备份记录的稀疏容器集合中查找重复数据块的容器ID,判断哪些重复数据块属于稀疏容器。对于属于稀疏容器的重复数据块,将其重写到新的容器中。该方法在备份过程中,只需记录下相关容器的利用率,内存开销极小。本发明还提供了相应的历史感知的数据去重碎片消除系统。由于本方法准确地识别了碎片,重写的数据量很少,因此保持了较高的去重率和备份性能,同时显著地提升恢复性能。
申请公布号 CN104050057B 申请公布日期 2017.04.26
申请号 CN201410249865.1 申请日期 2014.06.06
申请人 华中科技大学 发明人 冯丹;付忞;华宇;夏文;黄方亭;柳青
分类号 G06F11/14(2006.01)I;G06F3/06(2006.01)I 主分类号 G06F11/14(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 梁鹏
主权项 一种历史感知的数据去重碎片消除方法,其特征在于,所述方法包括如下步骤:(1)读取上次备份过程所记录的历史信息记录,所述历史信息记录中包括稀疏容器的ID;(2)对备份数据流中的文件进行分块,得到多个数据块,数据块的数量为n;(3)在备份开始时,设计数器i=1;(4)计算第i个数据块的数据块指纹;(5)在指纹索引中查找第i个数据块的数据块指纹,判断第i个数据块是否已经被存储;如果第i个数据块未被存储过,则第i个数据块为新数据块,将第i个数据块写入容器缓冲区,待容器满时一次性写入磁盘,并转到步骤(7);如果第i个数据块已被存储过,则第i个数据块为重复数据块,获得第i个数据块所属的容器ID,并转步骤(6);(6)查找历史信息记录,根据第i个数据块所属的容器ID判断第i个数据块所属的容器是否属于稀疏容器;如果是,则第i个数据块为碎片,将第i个数据块重新写到容器缓冲区,待容器满时一次性写入磁盘;如果不是,则第i个数据块不是碎片,将第i个数据块去重;(7)记录第i个数据块所属容器的ID,以及该容器对应的有效数据长度;判断i是否大于n,如果否,则备份未结束,将计数器i加1,返回步骤(4);否则进入步骤(8);(8)备份结束时,计算每个容器的利用率,将利用率低于阈值的容器标记为稀疏容器,所有稀疏容器的ID将被写入历史信息记录,供下次备份使用。
地址 430074 湖北省武汉市洪山区珞喻路1037号