发明名称 |
一种检测重复文本的方法及装置 |
摘要 |
本发明公开了一种检测文本重复的方法,用于实现文本是否重复的检测,提高检测的准确度。所述方法包括:获得待测文本和现有文本中的特征词和特征词序列;将待测文本中的每个特征词分别与现有文本中的每个特征词进行匹配;在特征词匹配成功时,获取匹配一致的特征词在待测文本特征词序列中的绝对位置与在现有文本特征词序列中的绝对位置;判断是否存在一组匹配一致的特征词,所述一组的所有特征词在待测文本与现有文本的特征词序列中的绝对位置有线性关系;若存在一组匹配一致的特征词,根据所述一组匹配一致的特征词在待测文本和现有文本的特征词序列中的绝对位置,确定待测文本与现有文本的重复区域。本发明还公开了用于实现所述方法的装置。 |
申请公布号 |
CN103246640A |
申请公布日期 |
2013.08.14 |
申请号 |
CN201310144339.4 |
申请日期 |
2013.04.23 |
申请人 |
北京十分科技有限公司 |
发明人 |
李鹏;孙熙;陆承恩 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种检测文本重复的方法,其特征在于,包括以下步骤:获得待测文本和现有文本中的特征词和特征词序列;将待测文本中的每个特征词分别与现有文本中的每个特征词进行匹配;在特征词匹配成功时,获取匹配一致的特征词在待测文本特征词序列中的绝对位置与在现有文本特征词序列中的绝对位置;判断是否存在一组匹配一致的特征词,所述一组的所有特征词在待测文本与现有文本的特征词序列中的绝对位置有线性关系;若存在一组匹配一致的特征词,根据所述一组匹配一致的特征词在待测文本和现有文本的特征词序列中的绝对位置,确定待测文本与现有文本的重复区域。 |
地址 |
100004 北京市朝阳区光华路7号汉威大厦东区18A1 |