发明名称 一种网络查重方法及系统
摘要 本发明提供了一种网络查重方法及系统。其中,对比库,收录素材;分词库,收录分词及对应词性;分词模块进行分词;分词特征值生成模块生成分词词性特征值;分词自由向量维数确定模块确定分词自由向量维数;分词精简向量维数生成模块,生成分词精简向量维数;分词特征向量生成模块,生成分词特征向量;待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,确定分词自由向量维数;待鉴定文档分词精简向量维数生成模块,生成待鉴定文档分词精简向量维数;待鉴定文档分词特征向量生成模块,生成待鉴定文档分词特征向量;进行相似度比对。
申请公布号 CN105701085A 申请公布日期 2016.06.22
申请号 CN201610019274.4 申请日期 2016.01.13
申请人 湖南通远网络科技有限公司 发明人 夏峰;洪学文;曾文斌
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京冠和权律师事务所 11399 代理人 朱健;陈国军
主权项 一种网络查重系统,其特征在于,包括:对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;所述对比库中不同子库采用分布式方式存储于不同的站点位置;访问对比库时根据不同子库所存放的站点位置分别进行访问;分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;所述分词库保存的分词词性类别为名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词;分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词模块将分词结果与分词库保存的词性进行比对,确定分词结果的词性;分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该分词在该素材中出现的总次数;W_CHAR表示该分词的词性;分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量;分词精简向量维数生成模块,用于对每个素材的分词自由向量维数WFV进行精简,生成分词精简向量维数RWV;分词特征向量生成模块,用于根据分词精简向量维数RWV提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV]其中W_IDi表示分词在分词库中的唯一编号,W_Ni,表示该分词在该素材中出现的总次数,将该次数作为该分词的特征值;用户访问方式检测模块,用于提示用户上传待鉴定文档;用户检测模式确定模块,用于判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词自由向量维数WFV_TBI;待鉴定文档分词精简向量维数生成模块,用于对待鉴定文档的分词自由向量维数WFV_TBI进行精简;生成待鉴定文档分词精简向量维数RWV_TBI;待鉴定文档分词特征向量生成模块,根据分词精简向量维数RWV_TBI提取每个待鉴定文档中与所述待鉴定文档分词精简向量维数RWV_TBI对应的特征值生成待鉴定文档分词特征向量WVE_RWV_TBI,其中WVE_RWV_TBI=[W_ID<sub>1</sub>,W_N<sub>1</sub>,...,W_ID<sub>i</sub>,W_N<sub>i</sub>,...,W_ID<sub>RWV_TBI</sub>,W_N<sub>RWV_TBI</sub>]其中W_ID<sub>i</sub>表示分词在分词库中的唯一编号,W_N<sub>i</sub>表示该分词在该待鉴定文档中出现的总次数,将该次数作为该分词的特征值;用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词特征向量生成模块生成待鉴定文档的分词特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID<sub>1</sub>,W_N<sub>1</sub>,...,W_ID<sub>i</sub>,W_N<sub>i</sub>,...,W_ID<sub>RWV_TBI</sub>,W_N<sub>RWV_TBI</sub>],待鉴定文档的分词特征向量的维数为RWV_TBI;分词特征向量生成模块生成对比库中素材的分词特征向量WVE_RWV;WVE_RWV=[W_ID<sub>1</sub>,W_N<sub>1</sub>,...,W_ID<sub>i</sub>,W_N<sub>i</sub>,...,W_ID<sub>RWV</sub>,W_N<sub>RWV</sub>];其中,待鉴定文档的分词特征向量的维数RWV_TBI等于分词特征向量的维数RWV;待鉴定文档特征向量调整模块,用于将分词特征向量WVE_RWV_TBI中的所有特征值对应的W_ID<sub>i</sub>值按照分词库中的编号进行升序或降序排列,并将缺少的W_ID<sub>i</sub>值插入,插入的分词编号W_ID<sub>i</sub>所对应的特征值为0;得到扩展的待鉴定文档分词特征向量WVE_RWV_TBI_EXT=[W_ID<sub>TBI_EXT_1</sub>,W_N<sub>TBI_EXT_1</sub>,...,W_ID<sub>TBI_EXT_i</sub>,W_N<sub>TBI_EXT_i</sub>,...,W_ID<sub>TBI_EXT_RWV_TBI</sub>,W_N<sub>TBI_EXT_RWV_TBI</sub>,...,W_ID<sub>W</sub>,W_N<sub>W</sub>];素材特征向量调整模块,用于将分词特征向量WVE_RWV中的所有特征值对应的W_ID<sub>i</sub>值按照分词库中的编号进行升序或降序排列,并将缺少的W_ID<sub>i</sub>值插入,插入的分词编号W_ID<sub>i</sub>所对应的特征值为0;得到扩展的分词特征向量WVE_RWV_EXT=[W_ID<sub>EXT_1</sub>,W_N<sub>EXT_1</sub>,...,W_ID<sub>EXT_i</sub>,W_N<sub>EXT_i</sub>,...,W_ID<sub>EXT_RWV</sub>,W_N<sub>EXT_RWV</sub>,...,W_ID<sub>W</sub>,W_N<sub>W</sub>];普通抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:<maths num="0001" id="cmaths0001"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><mi>W</mi><mi>V</mi><mi>E</mi><mo>_</mo><mi>R</mi><mi>W</mi><mi>V</mi><mo>_</mo><mi>T</mi><mi>B</mi><mi>I</mi><mo>,</mo><mi>W</mi><mi>V</mi><mi>E</mi><mo>_</mo><mi>R</mi><mi>W</mi><mi>V</mi></mrow><mo>)</mo></mrow><mo>=</mo><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><mi>W</mi><mi>V</mi><mi>E</mi><mo>_</mo><mi>R</mi><mi>W</mi><mi>V</mi><mo>_</mo><mi>T</mi><mi>B</mi><mi>I</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi><mo>,</mo><mi>W</mi><mi>V</mi><mi>E</mi><mo>_</mo><mi>R</mi><mi>W</mi><mi>V</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi></mrow><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mfrac><mrow><mn>2</mn><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mrow><mi>W</mi><mo>_</mo><msub><mi>N</mi><mrow><mi>T</mi><mi>B</mi><mi>I</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo><mi>i</mi></mrow></msub></mrow><mo>&times;</mo><mi>W</mi><mo>_</mo><msub><mi>N</mi><mrow><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo><mi>i</mi></mrow></msub></mrow><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mrow><mi>W</mi><mo>_</mo><msup><msub><mi>N</mi><mrow><mi>T</mi><mi>B</mi><mi>I</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo><mi>i</mi></mrow></msub><mn>2</mn></msup></mrow><mo>+</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mrow><mi>W</mi><mo>_</mo><msup><msub><mi>N</mi><mrow><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo><mi>i</mi></mrow></msub><mn>2</mn></msup></mrow><mo>+</mo><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mrow><mi>W</mi><mo>_</mo><msubsup><msub><mi>N</mi><mrow><mi>T</mi><mi>B</mi><mi>I</mi><mo>_</mo><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo></mrow></msub><mi>i</mi><mn>2</mn></msubsup></mrow></mrow></msqrt><mo>&times;</mo><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mrow><mi>W</mi><mo>_</mo><msup><msub><mi>N</mi><mrow><mi>E</mi><mi>X</mi><mi>T</mi><mo>_</mo><mi>i</mi></mrow></msub><mn>2</mn></msup></mrow></mrow></msqrt></mrow></mfrac></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000905604230000021.GIF" wi="2130" he="346" /></maths>当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材采用滑动窗口进行进一步对比;所述将待鉴定文档与疑似素材采用滑动窗口进行进一步对比具体为:步骤S0:开始;S1:滑动窗口设置模块初始化相似窗口计数器CT<sub>1</sub>=0、滑动歩长计数器CT<sub>2</sub>=0;步骤S2:滑动窗口设置模块设置待鉴定文档与疑似素材的滑动窗口均位于文档起始位置;步骤S3:滑动窗口对比模块对比待鉴定文档的滑动窗口与疑似素材的滑动窗口,统计其中相同的实词分词的数量;步骤S4:滑动窗口对比模块判断相同的实词分词的数量是否大于或等于门限值TH<sub>W</sub>;当大于或等于门限值时计数器值加一、即CT<sub>1</sub>=CT<sub>1</sub>+1,并记录鉴定文档的滑动窗口与疑似素材的滑动窗口当前的位置及滑动窗口内的内容;步骤S5:滑动窗口设置模块设置疑似素材的滑动窗口滑动一个滑动步长;步骤S6:滑动窗口设置模块判断是否位于文档结束位置处;如果不是结束位置,则返回步骤S3:如果是结束位置,则去往步骤S11;步骤S11:滑动窗口设置模块判断待鉴定文档的滑动窗口是否位于文档结束位置处;如果不是结束位置,则去往步骤S12,如果是结束位置,则去往步骤S13;步骤S12:滑动窗口设置模块设置疑似素材的滑动窗口回到文档起始位置;待鉴定文档的滑动窗口滑动一个滑动步长,CT<sub>2</sub>=CT<sub>2</sub>+1去往步骤S3;步骤S13:滑动窗口对比模块计算相似窗口计数器CT<sub>1</sub>数值与滑动歩长计数器CT<sub>2</sub>数值的比值M;S14:滑动窗口对比模块判断比值M是否大于或等于预设门限值TH<sub>m</sub>,当M≥TH<sub>M</sub>时,则认为该待鉴定文档与该疑似素材相似;当M&lt;TH<sub>M</sub>时,则认为该待鉴定文档与该疑似素材不相似;S15:滑动窗口对比模块判断是否还有疑似素材需要对比,如果有,则返回步骤S1;如果没有则去往步骤S16;步骤S16:对比报告生成模块生成并输出对比报告,所述对比报告中包含该鉴定文档与所有相似的疑似素材的相似窗口计数器CT<sub>1</sub>数值,滑动歩长计数器CT<sub>2</sub>数值,以及两者的比值,该鉴定文档与相似的疑似素材相似部分的具体位置以及具体内容;步骤S17:对比结束。
地址 410000 湖南省长沙市芙蓉区荷花园街道万家丽路一段176号旺德府大厦1401房