文档相似度计算方法、近似重复文档检测方法及装置,申请号CN201310260390.1-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	文档相似度计算方法、近似重复文档检测方法及装置
摘要	本发明涉及一种文档相似度计算方法、近似重复文档检测方法及装置，所述计算方法包括：对两个待检测文档分别进行切词处理，得到所述待检测文档各自的分词集合；计算两个所述分词集合中所有分词对的编辑相似度，每个所述分词对的两个分词分别来源于两个所述分词集合；在所述所有分词对中所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图；计算所述加权偶图的最大加权匹配值；利用所述最大加权匹配值，计算所述待检测文档之间的相似度。本发明提供的文档相似度计算方法、近似重复文档检测方法及装置，准确率高，能有效识别包含分词集编辑错误的近似重复文本，提高近似重复文档检测准确度，降低计算复杂度，优化计算效率。
申请公布号	CN104252445A	申请公布日期	2014.12.31
申请号	CN201310260390.1	申请日期	2013.06.26
申请人	华为技术有限公司;清华大学	发明人	李国良;冯建华;魏建生
分类号	G06F17/27(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	北京亿腾知识产权代理事务所 11309	代理人	陈霁
主权项	一种文档相似度计算方法，其特征在于，所述方法包括：对两个待检测文档分别进行切词处理，得到所述待检测文档各自的分词集合；计算两个所述分词集合中所有分词对的编辑相似度，每个所述分词对的两个分词分别来源于两个所述分词集合；在所述所有分词对中所述编辑相似度满足要求的分词对之间建立边，所述编辑相似度为对应分词对的边的权值，得到加权偶图；计算所述加权偶图的最大加权匹配值；利用所述最大加权匹配值，计算所述待检测文档之间的相似度。
地址	518129 广东省深圳市龙岗区坂田华为总部办公楼

您可能感兴趣的专利

Methods and compositions for stimulating neurite growth.

Refundable travellers cheques.

Process of phosphatizing metal surfaces.

Zusammensetzung eines modifizierten Polysiloxans und damit beschichteter sanitärer Kautschukartikel

ELEKTRONISCHES LAMINATSYSTEM MIT VERBESSERTEN REGISTRIERUNGSEIGENSCHAFTEN

Einstückig geformter Gegenstand aus Polypropylen und Siliconkautschuk und dessen Herstellungsverfahren

KATALYSATOR FÜR POLYURETHANSCHAUMSTOFF-TEPPICHRÜCKENBESCHICHTUNGEN SOWIE DAMIT HERGESTELLTE TEPPICHE

Polyesterfilm für thermische Beschichtung

Verfahren zum Erfassen von Parkzeiten und/oder Parkgebühren mit Parkkarten

Laufschienenanordnung, insbesondere für eine automatische Schiebetür mit mindestens einem Flügel

Einschichtige oder mehrschichtige Metallzylinderkopfdichtung und Verfahren zu ihrer Herstellung

Getriebe mit Zahnflankenprofil zur Verminderung der Reibungswärme und dessen Herstellungsverfahren

Tubular frame shape by internal hydraulic pressure for vehicle chassis

Catalytic hydrocarbon alkylation

Fahrersitz mit einer Sendeantenne zum Aussenden von elektromagnetischen Signalen

METHOD AND APPARATOUS FOR TREATING OF WASTE WATER

Method of mounting electrical components

Außenelektrode für einen monolithischen Vielschichtaktor