发明名称 一种用于数据去重系统中的碎片重写方法
摘要 本发明公开了一种用于数据去重系统的碎片重写方法,其在数据去重中增加一个缓存作为重写感知缓存,该重写感知缓存中的数据项为数据块所引用的容器标识(Container ID),对判定为数据碎片的数据块,如果其引用的容器标识(Container ID)已存储在该重写感知缓存中,则此数据无需重写,否则重写该数据碎片。本发明的方法是在数据去重的过程中增加了一个与数据读时同样大小且缓存策略相同的缓存,避免了不必要的重复数据块的重写,克服了现有算法存在的缺陷。相比与现有的去碎片算法,一是改善了因数据碎片对读性能造成的影响,通过重写数据碎片来提高读性能;二是在提高读性能的同时保证了更少的去重率损失。
申请公布号 CN103473150B 申请公布日期 2016.08.31
申请号 CN201310383204.3 申请日期 2013.08.28
申请人 华中科技大学 发明人 刘景宁;冯丹;周鹏举;许蔚;付忞
分类号 G06F11/14(2006.01)I;G06F3/06(2006.01)I 主分类号 G06F11/14(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 朱仁玲
主权项 一种用于数据去重系统的碎片重写方法,其基于CFL算法进行数据碎片判断并对该所述数据碎片进行选择性重写,从而实现高性能的碎片重写,其特征在于,该方法具体包括:(1)对新来的数据块,首先检查是否是重复数据块,如果不存在则直接作为新数据块写入Container,然后处理下一个数据块,否则转为步骤(2);(2)对于重复的数据块,判断当前CFL值,如果CFL值小于第一阈值(LWM)则转入步骤(4),如果大于第二阈值(HWM)则转入步骤(3);(3)采用一般去重方法进行去重,即数据块不被存储,仅存储相应的数据块指纹,然后转入步骤(1);(4)采用选择性去重方法进行去重,即判断当前数据块所引用的容器标识(Container ID)与用于暂存重复数据块的临时容器中的数据块是否有相同的容器标识(Container ID),如果是则暂时保存此数据块到临时容器中,转入步骤(1),否则转入步骤(5);(5)判断当前临时容器的中所有数据块大小之和与一个容器(Container)大小的比值,如果比值不小于重写阈值,则不需要重写,清除临时容器中的所有数据,转入步骤(1),如果比值小于该重写阈值,即作为数据碎片,转入步骤(6);(6)判断数据块是否在重写感知缓存队列中,如果存在则不需要重写,更新CFL值和重写感知缓存队列,转入步骤(1),否则转入步骤(7);(7)重写临时容器中的所有数据块,更新CFL值和重写感知缓存队列,使最新的容器标识进入该重写感知缓存队列。
地址 430074 湖北省武汉市洪山区珞喻路1037号