基于文档结构的文档相似性度量方法,申请号CN200510117412.4-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	基于文档结构的文档相似性度量方法
摘要	本发明公开了一种基于文档结构的文档相似性度量方法，涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息，本发明提出的方法包括以下步骤：(1)对于需要比较的两个文档X和Y，分别使用文档结构分析方法找出每个文档的子主题序列；(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值；(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值，建立一个带权二部图G＝{X，Y，E}；(4)对带权二部图G＝{X，Y，E}求解最优匹配，对最优匹配的总权值进行规范化处理，即得到文档X与Y的相似度值。本发明提出的方法，提高了文档相似性判断的准确度。
申请公布号	CN100543735C	申请公布日期	2009.09.23
申请号	CN200510117412.4	申请日期	2005.10.31
申请人	北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学	发明人	万小军;彭宇新;杨建武;吴於茜;陈晓鸥
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京中博世达专利商标代理有限公司	代理人	申健;张岱
主权项	1、一种基于文档结构的文档相似性度量方法，其特征在于，该方法包括以下步骤：(1)对于待比较的两个文档X和Y，利用文档结构分析方法分别得到所述两个文档X和Y的子主题序列{x1，x2，...，xn}和{y1，y2，...ym}；(2)对文档X的子主题序列中的每一子主题xi，分别与文档Y子主题序列中的每一子主题yj利用相似性度量方法计算相似度值wij；(3)对步骤(1)得到的两个文档的子主题序列及步骤(2)得到的相似度值wij，建立一个带权二部图G＝{X，Y，E}，其中点集X、Y分别为两个文档中的子主题序列，边集E中的边eij联系子主题xi和yj，该边的权重为步骤(2)算得到的xi和yj的相似度值wij；(4)对带权二部图G＝{X，Y，E}求解最优匹配，对最优匹配的总权值进行规范化处理，即得到文档X与Y的相似度值。
地址	100871北京市海淀区成府路298号方正大厦

您可能感兴趣的专利

APPARATUS AND METHOD FOR NUMBER PORTABILITY CALL PROCESSING

APPARATUS AND METHOD FOR SIMPLIFIED ANALOG SIGNAL RECORD AND PLAYBACK

MEASUREMENT OF PLASMA VOLUME

MIXED GAS WATER HEATER

PROGRAMMABLE DELAY CIRCUIT HAVING CALIBRATABLE DELAYS

MOISTURE-CURABLE ELECTRICALLY-INSULATING RESIN

MODEL-FREE ADAPTIVE PROCESS CONTROL

BACKGROUND UNFURLING APPARATUS AND METHOD

GAS RANGE BURNER SYSTEM

MINERAL PELLETISATION

PNEUMATIC VALVE ACTUATOR

THERMAL DIMENSIONAL STABILITY TREATMENT OF VITREOUS SHEET MATERIAL BY CONTACTING WITH A MOLTEN ALKALI METAL SALT

ARRANGEMENT WITH TRANSFER OF MEASURED VALUES

IMPROVED TONGUE FOR FOOTWEAR

PLASTIC CONTAINER FOR CARBONATED BEVERAGES

ANIMAL LITTER AND A METHOD FOR PRODUCING THE SAME

Resinous part with high rate of filling

Quick connector