发明名称 一种文件摘要的提取方法
摘要 本发明涉及一种文件摘要的提取方法,属于数据处理技术领域。首先生成一个由多个字节组成的字节序列,将文件按照单位长度切分为一个或多个数据块,扫描组成各数据块的字节取值,将该字节取值与字节序列中各字节取值进行比较,统计两者相等的字节数量;设定一个数量分隔符,检查字节数量的符号,当字节数量符号超过一个时,在其两侧添加该数量分隔符,将所有字节数量和数量分隔符组成一个或多个中间序列;设定边界分隔符,将多个中间序列依次相互连接,每两个中间序列之间添加上述边界分隔符,得到文件摘要。本发明方法可以根据摘要值迅速判断出两个文件的相似程度,在没有得到原始文件数据的情况下,也可以得出不同原始文件的相似程度。
申请公布号 CN102364458A 申请公布日期 2012.02.29
申请号 CN201110375121.0 申请日期 2011.11.23
申请人 赵树乔 发明人 赵树乔
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 罗文群
主权项 一种文件摘要提取方法,其特征在于该方法包括以下各步骤:(1)生成一个由多个字节组成的字节序列,字节序列中每个字节的值互不相同;(2)将文件按照单位长度切分为一个或多个数据块,;(3)分别扫描组成上述各数据块的字节取值,将该字节取值与上述字节序列中各字节取值进行比较,分别统计数据块的字节取值与上述字节序列中的字节取值相等的字节数量;(4)设定一个非数字的数量分隔符,使得该分隔符与表示上述字节数量的符号不相等,依次检查一个或多个数据块中的所有字节数量的符号,当字节数量符号超过一个时,在该字节数量符号的两侧添加该数量分隔符,将所有字节数量和数量分隔符组成一个或多个中间序列;(5)设定一个非数字的符号作为边界分隔符,该边界分隔符与上述数量分隔符和上述数量符号不相等;(6)将上述多个中间序列依次相互连接,每两个中间序列之间添加上述边界分隔符,得到文件摘要。
地址 100101 北京市朝阳区南湖南路9号
您可能感兴趣的专利