发明名称 |
一种基于藏文句子级别的藏文论文复制检测方法及系统 |
摘要 |
本发明是一种基于藏文句子级别的藏文论文复制检测方法及系统,方法对藏文文本字符编码转换及噪音去除的预处理;利用藏文句子边界识别把文本按句子分成文本块并建立文本块分词临时表;根据句子数在句子‑文档倒排索引表和临时表中提取并计算文本特征得到句子相似度;利用句子相似值建立邻接表并计算文本块相似度,根据文本块相似值来检测两篇藏文论文存在的复制。所述系统包括通过因特网连接到客户终端服务器的藏文论文复制检测装置,以及连接到所述服务器存储藏文论文的数据库;所述装置包括对文本字符编码转换及去除噪音的预处理模块;构建文本块分词的临时表模块;构建句子文本特征的提取模块;检测论文存在相似复制数据的复制检测模块。 |
申请公布号 |
CN106227897A |
申请公布日期 |
2016.12.14 |
申请号 |
CN201610778300.1 |
申请日期 |
2016.08.31 |
申请人 |
青海民族大学 |
发明人 |
看不太;安见才让;孙琦龙;昝风彪 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06F17/22(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京酷爱智慧知识产权代理有限公司 11514 |
代理人 |
赵永辉 |
主权项 |
一种基于藏文句子级别的藏文论文复制检测方法,利用可访问因特网的客户终端,通过因特网连接到所述客户终端的服务器的藏文论文复制检测装置,以及连接到所述服务器存储的藏文论文的数据库;所述方法包括如下步骤:步骤S1:通过因特网连接到所述客户终端服务器的藏文论文复制检测装置,从藏文论文的数据库中提取待检测藏文论文文本中的内容,对藏文论文文本字符编码转换及噪音去除的预处理;步骤S2:利用藏文句子边界识别算法把藏文论文文本按句子分成文本块,建立文本块分词的临时表;步骤S3:判断句子个数i的值大于0时执行步骤S4,判断句子个数i的值小于等于0执行步骤S7;步骤S4:在句子‑文档倒排索引表W和临时表T中提取句子的文本特征;步骤S5:对文本特征计算,得到句子相似度;步骤S6:利用句子相似值建立邻接表;步骤S7:利用邻接表计算文本块相似度,根据文本块相似值来检测两篇藏文论文存在的复制数据。 |
地址 |
810007 青海省西宁市城东区八一中路3号 |