发明名称 一种论文抄袭检测方法及系统
摘要 本发明提供了一种论文抄袭检测方法及系统。其中,对比库,收录素材;分词库,收录分词及对应词性;分词模块进行分词;分词特征值生成模块生成分词词性特征值;分词自由向量维数确定模块确定分词自由向量维数;分词精简向量维数生成模块,生成分词精简向量维数;分词特征向量生成模块,生成分词特征向量;待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,确定分词自由向量维数;待鉴定文档分词精简向量维数生成模块,生成待鉴定文档分词精简向量维数;待鉴定文档分词特征向量生成模块,生成待鉴定文档分词特征向量;进行相似度比对。
申请公布号 CN105701076A 申请公布日期 2016.06.22
申请号 CN201610020719.0 申请日期 2016.01.13
申请人 湖南通远网络科技有限公司 发明人 夏峰;洪学文;曾文斌
分类号 G06F17/22(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京冠和权律师事务所 11399 代理人 朱健;陈国军
主权项 一种论文抄袭检测系统,其特征在于,包括:对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词模块将分词结果与分词库保存的词性进行比对,确定分词结果的词性;分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该分词在该素材中出现的总次数;W_CHAR表示该分词的词性;分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量;分词精简向量维数生成模块,用于对每个素材的分词自由向量维数WFV进行精简,生成分词精简向量维数RWV;分词特征向量生成模块,用于根据分词精简向量维数RWV提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV]其中W_IDi表示分词在分词库中的唯一编号,W_Ni,表示该分词在该素材中出现的总次数,将该次数作为该分词的特征值;用户访问方式检测模块,用于提示用户上传待鉴定文档;用户检测模式确定模块,用于判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词自由向量维数WFV_TBI;待鉴定文档分词精简向量维数生成模块,用于对待鉴定文档的分词自由向量维数WFV_TBI进行精简;生成待鉴定文档分词精简向量维数RWV_TBI;待鉴定文档分词特征向量生成模块,根据分词精简向量维数RWV_TBI提取每个待鉴定文档中与所述待鉴定文档分词精简向量维数RWV_TBI对应的特征值生成待鉴定文档分词特征向量WVE_RWV_TBI,其中WVE_RWV_TBI=[W_ID<sub>1</sub>,W_N<sub>1</sub>,...,W_ID<sub>i</sub>,W_N<sub>i</sub>,...,W_ID<sub>RWV_TBI</sub>,W_N<sub>RWV_TBI</sub>]其中W_ID<sub>i</sub>表示分词在分词库中的唯一编号,W_N<sub>i</sub>表示该分词在该待鉴定文档中出现的总次数,将该次数作为该分词的特征值;用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词特征向量生成模块生成待鉴定文档的分词特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID<sub>1</sub>,W_N<sub>1</sub>,...,W_ID<sub>i</sub>,W_N<sub>i</sub>,...,W_ID<sub>RWV_TBI</sub>,W_N<sub>RWV_TBI</sub>],待鉴定文档的分词特征向量的维数为RWV_TBI;分词特征向量生成模块生成对比库中素材的分词特征向量WVE_RWV;WVE_RWV=[W_ID<sub>1</sub>,W_N<sub>1</sub>,...,W_ID<sub>i</sub>,W_N<sub>i</sub>,...,W_ID<sub>RWV</sub>,W_N<sub>RWV</sub>];其中,待鉴定文档的分词特征向量的维数RWV_TBI等于分词特征向量的维数RWV;待鉴定文档特征向量调整模块,用于将分词特征向量WVE_RWV_TBI中的所有特征值对应的W_ID<sub>i</sub>值按照分词库中的编号进行升序或降序排列,并将缺少的W_ID<sub>i</sub>值插入,插入的分词编号W_ID<sub>i</sub>所对应的特征值为0;得到扩展的待鉴定文档分词特征向量WVE_RWV_TBI_EXT=[W_ID<sub>TBI_EXT_1</sub>,W_N<sub>TBI_EXT_1</sub>,...,W_ID<sub>TBI_EXT_i</sub>,W_N<sub>TBI_EXT_i</sub>,...,W_ID<sub>TBI_EXT_RWV_TBI</sub>,W_N<sub>TBI_EXT_RWV_TBI</sub>,...,W_ID<sub>W</sub>,W_N<sub>W</sub>];素材特征向量调整模块,用于将分词特征向量WVE_RWV中的所有特征值对应的W_ID<sub>i</sub>值按照分词库中的编号进行升序或降序排列,并将缺少的W_ID<sub>i</sub>值插入,插入的分词编号W_ID<sub>i</sub>所对应的特征值为0;得到扩展的分词特征向量WVE_RWV_EXT=[W_ID<sub>EXT_1</sub>,W_N<sub>EXT_1</sub>,...,W_ID<sub>EXT_i</sub>,W_N<sub>EXT_i</sub>,...,W_ID<sub>EXT_RWV</sub>,W_N<sub>EXT_RWV</sub>,...,W_ID<sub>W</sub>,W_N<sub>W</sub>];普通抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:<maths num="0001" id="cmaths0001"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><mi>W</mi><mi>V</mi><mi>E</mi><mo>_</mo><mi>R</mi><mi>W</mi><mi>V</mi><mo>_</mo><mi>T</mi><mi>B</mi><mi>I</mi><mo>,</mo><mi>W</mi><mi>V</mi><mi>E</mi><mo>_</mo><mi>R</mi><mi>W</mi><mi>V</mi></mrow><mo>)</mo></mrow><mo>=</mo><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><mi>W</mi><mi>V</mi><mi>E</mi><mo>_</mo><mi>R</mi><mi>W</mi><mi>V</mi><mo>_</mo><mi>T</mi><mi>B</mi><mi>I</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi><mo>,</mo><mi>W</mi><mi>V</mi><mi>E</mi><mo>_</mo><mi>R</mi><mi>W</mi><mi>V</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi></mrow><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mfrac><mrow><mn>2</mn><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mi>W</mi><mo>_</mo><msub><mi>N</mi><mrow><mi>T</mi><mi>B</mi><mi>I</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo><mi>i</mi></mrow></msub><mo>&times;</mo><mi>W</mi><mo>_</mo><msub><mi>N</mi><mrow><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo><mi>i</mi></mrow></msub></mrow><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mi>W</mi><mo>_</mo><msubsup><msub><mi>N</mi><mrow><mi>T</mi><mi>B</mi><mi>I</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo></mrow></msub><mi>i</mi><mn>2</mn></msubsup><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mi>W</mi><mo>_</mo><msup><msub><mi>N</mi><mrow><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo><mi>i</mi></mrow></msub><mn>2</mn></msup><mo>+</mo><msqrt><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mi>W</mi><mo>_</mo><msubsup><msub><mi>N</mi><mrow><mi>T</mi><mi>B</mi><mi>I</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo></mrow></msub><mi>i</mi><mn>2</mn></msubsup></mrow></msqrt><mo>&times;</mo><msqrt><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mi>W</mi><mo>_</mo><msup><msub><mi>N</mi><mrow><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo><mi>i</mi></mrow></msub><mn>2</mn></msup></mrow></msqrt></mrow></mfrac></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000905603710000021.GIF" wi="2129" he="346" /></maths>当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材进行进一步对比。
地址 410000 湖南省长沙市芙蓉区荷花园街道万家丽路一段176号旺德府大厦1401房