发明名称 基于近似串匹配距离的电子文本文档抄袭识别方法
摘要 一种电子文本文档的抄袭识别方法,主要通过分段落的近似串匹配距离来识别抄袭。具体步骤是:欲识别文档A是否抄袭文档B,先计算文档A的每个段落在文档B中的近似串匹配距离和近似匹配片段,再根据近似匹配片段计算回退数和前跳数,回退数是指下一近似匹配片段首部反而位于上一近似匹配片段尾部之前的发生数目或越过的段落总数目,前跳数是指下一近似匹配片段在上一近似匹配片段之后但至少间隔一个段落的发生数目或间隔的段落总数目,最后将近似串匹配距离之和、回退数和前跳数三者求和作为文档A对文档B的抄袭距离,若该距离小于一定的阈值,则视文档A有抄袭文档B的嫌疑。
申请公布号 CN101441620A 申请公布日期 2009.05.27
申请号 CN200810162245.9 申请日期 2008.11.27
申请人 温州大学 发明人 胡明晓
分类号 G06F17/22(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 代理人
主权项 1、一种电子文本文档的抄袭识别方法,该方法通过至少包含文档读取装置、文档分段落装置、抄袭识别器、文档存储器和输出装置的计算机系统,其中所说文档读取装置、文档分段落装置、抄袭识别器分别与所说文档存储器连接,所说抄袭识别器与所说输出装置连接,来识别电子文本文档的抄袭,其特征在于,所说抄袭识别器的运行包含下列步骤:①若欲识别文档甲是否抄袭文档乙,先计算文档甲的每个段落在文档乙中的近似串匹配距离和近似匹配片段,并根据近似匹配片段计算回退数和前跳数;所说回退数是指:文档甲各段落的近似匹配片段中,其首部位于上一近似匹配片段尾部之前的个数;或者是指:一个近似匹配片段首部位于上一近似匹配片段尾部之前时,在文档乙中所越过的段落分界符的个数加1,再关于第2个开始的每个近似匹配片段求和的总数;所说前跳数是指:文档甲各段落的近似匹配片段中,其首部所在段落在上一近似匹配片段尾部所在段落的后面并且至少间隔一个文档乙段落的个数,其中对第1个近似匹配片段而言,上一近似匹配片段尾部所在段落视为第0段;或者是指:一个近似匹配片段首部所在段落在上一近似匹配片段尾部所在段落的后面并且至少间隔一个文档乙段落时,所间隔的段落数,再关于每个近似匹配片段求和的总数,其中对第1个近似匹配片段而言,上一近似匹配片段尾部所在段落视为第0段;②然后将各近似串匹配距离之和、回退数和前跳数三者求和,作为文档甲对于文档乙的抄袭距离;③最后根据抄袭距离判断文档甲是否抄袭文档乙,若该抄袭距离小于一定的阈值,则视文档甲涉嫌抄袭文档乙,否则视文档甲没有涉嫌抄袭文档乙。
地址 325035浙江省温州市瓯海区茶山高教园区温州大学计算机科学与工程学院