发明名称 一种快速比对文本内容的方法与系统
摘要 本发明属信息检索领域,公开一种快速比对文本内容的方法与系统,分为文档注册和文档比对两个部分。文档注册部分使用一种迭代式学方法从待注册文档的文本中学新关键词,构造关键词库,并基于关键词库建立文本语义和文字结构两种表达方式表示的注册文档库。文档比对部分基于关键词库建立待比对文档文本语义表达方式,与注册文档一一进行文本语义相似性比对,获取相似度最高的、很少数量的注册文档,再基于二部图分割算法与待比对文档一一进行文字结构相似性比对,输出文字结构相似度最高的若干篇注册文档及其与待比对文档的文字结构匹配关系。采用本发明所述方法,可以大幅提高文档的文本内容比对效率,并提供文档间相似文本内容的对应关系。
申请公布号 CN105630751A 申请公布日期 2016.06.01
申请号 CN201510989166.5 申请日期 2015.12.28
申请人 厦门优芽网络科技有限公司 发明人 陈春蓉;阳嫔虹;张委员;黄艺煌
分类号 G06F17/22(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 代理人
主权项 一种快速比对文本内容的系统,其特征在于,由文档注册和文档比对两部分构成,其中,文档注册部分用于从待注册文档的文本中自动学习关键词和构造注册文档库,文档比对部分用于从注册文档库搜索、输出与待比对文档在文本语义与文字结构均相似的已注册文档,并输出每篇文档与待比对文档最相似句子间的连续关键词匹配关系。
地址 361000 福建省厦门市思明区莲前西路595号益马国际二楼