发明名称 一种大数据集下相似性数据的快速识别算法
摘要 一种大数据下相似性数据快速识别算法,包括下述步骤:数据文件长度的修正;计算抽样数据块之间的距离;计算抽样数据块的位置;抽取数据块;在数据文件首尾各抽取一个数据块;计算抽取数据块的特征值;通过集合运算判断数据的相似性。一方面,本发明的时空开销不随着数据文件大小的增加而增长;其次,本发明通过位置影响因子修正数据文件的长度,避免抽样数据块位置偏移而导致相似性数据识别失败;另外一方面,本发明通过信息检索的方法有效的保证了本发明在相似性数据识别方面的有效性和准确性。
申请公布号 CN104021179A 申请公布日期 2014.09.03
申请号 CN201410247704.9 申请日期 2014.06.05
申请人 暨南大学 发明人 邓玉辉;周永涛
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 陈燕娴;李斌
主权项 一种大数据下相似性数据快速识别算法,其特征在于,包括:(1)、数据文件长度的修正,在对数据文件进行相似性判断之前,首先获取数据文件的长度,将数据文件的长度除以一个位置影响因子,然后将得到的商乘以位置影响因子,最后将所得的积作为修正后的数据文件长度;(2)、计算抽样数据块之间的距离;(3)、计算抽样数据块的位置,根据抽取顺序、抽样数据块之间的距离和抽样数据的长度进行计算;(4)、抽取数据块,根据计算出来的抽样数据块的位置,设置数据文件的读取位置,然后抽取长度等于抽样数据块长度的数据块;(5)、在数据文件首尾各抽取一个数据块;(6)、计算抽取数据块的特征值,通过将每一个抽取的数据通过哈希函数计算一个出哈希值,用这个哈希值代表该数据块;(7)、通过集合运算判断数据的相似性,将计算出来的哈希值集合同已经存储的哈希值集合进行集合运算,得到值作为两个数据的相似程度值T;T值大于等于0,小于等于1;当T接近0时,代表这个两个数据相似程度非常低;当T接近1时,代表这两个数据相似程度非常高。
地址 510632 广东省广州市黄埔大道西601号