发明名称 一种检测及定位电子文本内容剽窃的方法
摘要 本发明公开了一种利用计算机系统检测及定位电子文本内容剽窃的方法,该计算机系统至少包括:电子文本录入模块,文本特征提取模块,剽窃证据提取模块,文本剽窃判定模块,展示检测结果及定位剽窃内容模块。其检测方法首先根据文本结构信息和语义信息提取特征,获得待检测项序列;然后依次处理待检测项序列中的所有项,获得疑似剽窃队列;接着检测所有疑似剽窃队列,从中获得剽窃证据,生成剽窃证据表;然后根据证据表计算文本雷同度,并判定是否有剽窃。如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃。被判定有剽窃的文本对从证据表中取出相应剽窃证据,送入展示模块显示具体剽窃内容。
申请公布号 CN101404037B 申请公布日期 2011.05.18
申请号 CN200810232309.8 申请日期 2008.11.18
申请人 西安交通大学 发明人 鲍军鹏;冯中慧
分类号 G06F17/30(2006.01)I;G06F21/00(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西安恒泰知识产权代理事务所 61216 代理人 李郑建
主权项 一种检测及定位电子文本剽窃内容方法,其特征在于,包括以下步骤:步骤一,向计算机系统提交被检测文本或者增添新的被检测文本;步骤二,对提交的被检测文本或者增添的新的被检测文本,根据文本结构信息和语义信息提取被检测文本特征,生成待检测项序列;步骤三,把项序列中依次取出的每个项映射到已知项表上,生成疑似剽窃队列,检测所有疑似剽窃队列,从中获得剽窃证据,生成证据表;所述的疑似剽窃队列是由多个项构成的一个有序序列,该有序序列具有以下特征:A1、有序序列中所有的项都在同一篇已知的文本中出现;A2、有序序列中任意两个项的先后顺序由它们在待测文本中的顺序决定;A3、有序序列中任意两个相邻项在待测文本中的位置相近;所述的生成疑似剽窃队列的过程如下:1)、待检测文本经过数据清洗之后得到待检测项序列;2)、对待检测项序列中的项依次映射到已知项表上;3)、如果已知项表中对应项的对应已知文本不为空,则把该项及其在已知文本中的位置放入疑似剽窃队列中;4)、如果新放入疑似剽窃队列中的项与该队列中上一个项在待测文本中位置不相近,则生成一个新的疑似剽窃队列,否则就继续原疑似剽窃队列;5)、重复以上步骤2)~步骤4)直至待检测项序列处理完;所述的生成证据表的过程如下:B1、对疑似剽窃队列中的每一个项,取出其在已知文本中的位置队列;B2、对于位置队列中的每一个位置,判断其是否落在某个雷同区间之内;B3、如果当前没有雷同区间,则以当前位置为起止位置构成一个雷同区间,并存入当前雷同队列;B4、如果当前位置在雷同区间之内,则转至B7;B5、如果当前位置在雷同区间之外,并且与雷同区间的起止位置相近,则扩展该雷同区间;B6、如果当前位置在雷同区间之外,并且与雷同区间的起止位置均不相近,则以当前位置为起止位置构成一个雷同区间,并存入当前雷同队列;B7、如果雷同区间足够长,则将其直接存入剽窃证据表中,并从当前雷同队列中删除;B8、重复上述步骤B1至B7,直至疑似剽窃队列处理完;步骤四,计算被检测文本与已知文本之间的雷同度,判定被检测文本中是否含有剽窃,如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃;步骤五,向用户输出检测结果并展示剽窃文本具体的剽窃内容作为剽窃证据。
地址 710049 陕西省西安市咸宁西路28号