发明名称 一种基于极值的数据去重分块方法
摘要 本发明公开了一种基于极值的数据去重分块方法,其特征在于,包括:本发明是现有分块方法的改进,与现有分块方法的不同之处在于:1、本方法在局部非对称区域而不是对称区域内寻找局部极值来解决边界偏移问题;2、本发明将拥有局部极值的位置(即极值点)放在数据块的中间而不是作为数据块的边界;3、本发明在遇到相等的极值时将最先出现的极值所在的位置作为极值点。前两个不同点使得本发明在判断切点时所需的操作极少,因此可获得远高于现有分块方法的吞吐量;第三个不同点使本发明能够检测并消除掉部分低熵字符串中的重复数据。此外,本发明生成的数据块的块长方差较小且无需强制块长限制,因此能获得与传统分块方法相当或更高的去重率。
申请公布号 CN104572872A 申请公布日期 2015.04.29
申请号 CN201410803454.2 申请日期 2014.12.19
申请人 华中科技大学 发明人 冯丹;张宇成;夏文;付忞;黄方亭;周玉坤
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 曹葆青
主权项 一种基于极大值的数据去重分块方法,其特征在于,所述方法包括以下步骤:(1)将滑动窗口置于数据流尚未分块的起始位置,设置该窗口的位置P为0,并根据窗口内容计算出该窗口的值V,将此窗口的V和P分别赋值给临时最大值V<sub>max</sub>和V<sub>max</sub>所在的位置P<sub>max</sub>;(2)将滑动窗口向前滑动一个字节,设置当前窗口的位置P<sub>curr</sub>为前一个窗口的位置P加1,计算当前窗口的值V<sub>curr</sub>,并将V<sub>curr</sub>与V<sub>max</sub>进行比较:(2.1)如果V<sub>curr</sub>>V<sub>max</sub>,则将V<sub>curr</sub>和P<sub>curr</sub>分别赋值给V<sub>max</sub>和P<sub>max</sub>,执行步骤(2);(2.2)如果V<sub>curr</sub>≤V<sub>max</sub>,则检查P<sub>curr</sub>与P<sub>max</sub>的距离,如果距离小于预设值W,执行步骤(2);如果距离等于预设值W,则V<sub>max</sub>拥有局部区域内的最大值,其所在位置P<sub>max</sub>为极值点,当前位置P<sub>curr</sub>为切点;输出该切点,执行步骤(1)进行下一轮分块。
地址 430074 湖北省武汉市洪山区珞喻路1037号