发明名称 重复文本识别系统及方法
摘要 本发明涉及一种重复文本识别系统,包括:分割单元,用于将电子文本内容按照标点符号分割为多个短句;转换单元,用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列;搜索引擎,用于存储数字序列组,其中每一数字序列组包括同一电子文本内容的多个数字序列;判断单元,用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的。本发明还提供一种对应的重复文本识别方法。本发明通过将电子文本内容分割后的各部分转换为数字序列,并根据数字序列组进行相似度判断,从而提高了相似度判断的效率及效果。
申请公布号 CN101859309A 申请公布日期 2010.10.13
申请号 CN200910134840.6 申请日期 2009.04.07
申请人 慧科讯业有限公司 发明人 胡达明;冼家扬
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市顺天达专利商标代理有限公司 44217 代理人 郭伟刚
主权项 一种重复文本识别系统,其特征在于,包括:分割单元,用于将电子文本内容按照标点符号分割为多个短句;转换单元,用于将分割后的每一短句转换为一个唯一的且长度固定的数字序列;搜索引擎,用于存储数字序列组,其中每一数字序列组包括同一电子文本内容的多个数字序列;判断单元,用于在搜索引擎中的两个数字序列组的相似度达到指定阈值时确认对应的电子文本内容为重复文本的。
地址 中国香港湾仔告士打道109-111号东惠商业大厦25楼