发明名称 |
基于文档结构的文档相似性度量方法 |
摘要 |
本发明公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明提出的方法,提高了文档相似性判断的准确度。 |
申请公布号 |
CN100543735C |
申请公布日期 |
2009.09.23 |
申请号 |
CN200510117412.4 |
申请日期 |
2005.10.31 |
申请人 |
北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学 |
发明人 |
万小军;彭宇新;杨建武;吴於茜;陈晓鸥 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京中博世达专利商标代理有限公司 |
代理人 |
申 健;张 岱 |
主权项 |
1、一种基于文档结构的文档相似性度量方法,其特征在于,该方法包括以下步骤:(1)对于待比较的两个文档X和Y,利用文档结构分析方法分别得到所述两个文档X和Y的子主题序列{x1,x2,...,xn}和{y1,y2,...ym};(2)对文档X的子主题序列中的每一子主题xi,分别与文档Y子主题序列中的每一子主题yj利用相似性度量方法计算相似度值wij;(3)对步骤(1)得到的两个文档的子主题序列及步骤(2)得到的相似度值wij,建立一个带权二部图G={X,Y,E},其中点集X、Y分别为两个文档中的子主题序列,边集E中的边eij联系子主题xi和yj,该边的权重为步骤(2)算得到的xi和yj的相似度值wij;(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。 |
地址 |
100871北京市海淀区成府路298号方正大厦 |