发明名称 |
一种跨语言的电子文本剽窃检测系统及其检测方法 |
摘要 |
本发明公开了一种跨语言的电子文本剽窃检测系统及其检测方法,包括以下步骤:分别对待测电子文本和参考电子文本进行段落划分,得到待测段落集和参考段落集;根据跨语言本体,查找待测段落集和参考段落集中词语对应的概念,并根据所查找到的概念,将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列;据待测多重概念序列,检索得到与待测多重概念序列共同概念最多的参考多重概念序列;检测多重概念序列,生成剽窃证据列表;对剽窃证据列表进行合并、整理,生成检测结果;输出和显示检测结果。本发明中所建立得多重概念序列,能够将待测电子文本和参考电子文本进行充分的检索,进而提高了检测的准确率。 |
申请公布号 |
CN103823862A |
申请公布日期 |
2014.05.28 |
申请号 |
CN201410062327.1 |
申请日期 |
2014.02.24 |
申请人 |
西安交通大学 |
发明人 |
鲍军鹏;张昭 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
西安通大专利代理有限责任公司 61200 |
代理人 |
陆万寿 |
主权项 |
一种跨语言的电子文本剽窃检测方法,其特征在于,包括以下步骤:步骤一,分别对待测电子文本和参考电子文本进行段落划分,得到待测段落集和参考段落集;步骤二,根据跨语言本体,查找待测段落集和参考段落集中词语对应的概念,并根据所查找到的概念,将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列;步骤三,根据待测多重概念序列,检索得到与待测多重概念序列共同概念最多的参考多重概念序列;步骤四,检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列,生成剽窃证据列表;步骤五,对剽窃证据列表进行合并、整理,生成检测结果;步骤六,输出和显示检测结果。 |
地址 |
710049 陕西省西安市碑林区咸宁西路28号 |