发明名称 一种基于相似性的文件分类方法
摘要 一种基于相似性的文件分类方法,属于计算机存储系统领域,解决现有分类方法计算量和内存占用较大的问题。本发明包括分块步骤、计算校验和步骤、统计步骤和分类步骤。本发明对文件数据的处理不需要随机读写,只需要从头到尾的进行一次处理,就可以完成分块,计算校验和,统计,排序以及最终确定分类所有步骤;可以高效的获取文件间的关联信息,将在二进制数据层面上相似的文件划归为一类,对文件给出所属类别的唯一标识,在判定两个文件是否相似时,只需要判断它们所属类别的标识是否相同即可,处理速度快,占用内存少,可以通过运行参数调整判定精度;适用于各类需要获取数据相似性的应用,特别面向存储、数据去重的相关应用。
申请公布号 CN103049263A 申请公布日期 2013.04.17
申请号 CN201210537471.7 申请日期 2012.12.12
申请人 华中科技大学 发明人 王芳;冯丹;陈俭喜;杜鑫;郑超
分类号 G06F9/44(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F9/44(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 方放
主权项 一种基于相似性的文件分类方法,包括下述步骤:(1)分块步骤,包括下述子步骤:(1.1)将文件字节流上的开始与结束位置作为两个分界点,将一个窗口的后沿置于文件字节流的开始位置上,利用哈希函数计算窗口内字节的哈希值,所述窗口长度L0为4字节~1024字节;所述哈希函数的散列空间不大于设定的块最大字节数P,P=128~8192;(1.2)判断所述哈希值与预定值是否相同,是则进行子步骤(1.3),否则转子步骤(1.4),所述预定值从所述哈希函数的值域中任意选择一个;(1.3)将窗口的前沿所在字节作为当前分界点,判断当前分界点与前一个分界点之间的字节数是否小于设定的块最小字节数,是则忽略当前分界点,执行子步骤(1.4),否则执行子步骤(1.5),所述块最小字节数为8~P;(1.4)将所述窗口沿文件字节流滑动一个字节,判断窗口前沿与前一个分界点之间的字节数是否达到设定的块最大字节数P,是则把窗口前沿设定为当前分界点,执行子步骤(1.5),否则计算窗口内字节的哈希值,转子步骤(1.2);(1.5)将当前分界点与前一个分界点之间的字节作为一个块,记为当前块,将窗口后沿置于文件字节流上当前分界点的下一个字节处,执行步骤(2);(2)计算校验和步骤:计算检验和s,并将其保存在临时校验和结果集中,s=a+216b,其中,a、b为中间参数: <mrow> <mi>a</mi> <mo>=</mo> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mn>1</mn> </mrow> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>mod</mi> <mi>M</mi> <mo>,</mo> </mrow> <mrow> <mi>b</mi> <mo>=</mo> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>L</mi> <mn>1</mn> </mrow> </munderover> <mrow> <mo>(</mo> <mi>L</mi> <mn>1</mn> <mo>-</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>mod</mi> <mi>M</mi> <mo>,</mo> </mrow>L1为当前块长度,xi表示当前块中的第i个字节,1≤i≤L1,M为大于215且小于232的整数;重复执行步骤(1)和步骤(2),直至计算完文件字节流的最后一个块的校验和;(3)统计步骤,包括下述子步骤:(3.1)统计各个相同校验和出现的次数;(3.2)按相同校验和出现次数从多到少,对所有校验和进行排序,形成校验和序列,相同校验和在校验和序列中仅出现一次;(4)分类步骤,包括下述子步骤:(4.1)判断校验和序列中的校验和数目是否大于或等于设定的取样数N,是则执行子步骤(4.2),否则分类失败,返回分类失败提示;N=1~10,取样数越大,分类精度越高,但系统开销越大,反之亦然;(4.2)在所述校验和序列中取前N个校验和,计算其指纹值,将该指纹值作为文件所属类别标识。
地址 430074 湖北省武汉市洪山区珞喻路1037号
您可能感兴趣的专利