发明名称 词与网页的关联度计算方法及装置
摘要 本发明提供一种词与网页的关联度计算方法及装置,本发明对网页的标题和正文内容进行分词及预处理,使用标题词与正文词构建词连接集合用于计算词的TextRank得分,将TextRank得分作为词与网页的关联度并保存到数据库。该方法采用TextRank得分作为关联度,可有效地反映词与网页的关联关系,将标题的词用于修正基于正文的词构建的词连接集合,并使用修正后的词连接集合计算词的TextRank得分,充分考虑了标题在网页信息中的重要性,有利于提升关联精度。
申请公布号 CN105718445A 申请公布日期 2016.06.29
申请号 CN201610058722.1 申请日期 2016.01.28
申请人 中国人民解放军国防科学技术大学 发明人 刘忠;陈发君;黄金才;朱承;修保新;程光权;陈超;冯旸赫
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京中济纬天专利代理有限公司 11429 代理人 陈立新
主权项 一种词与网页的关联度计算方法,其特征在于,包括以下步骤:步骤S100:读取网页的标题和正文内容,进行分词及词性标注,得到正文词列表bodyList和标题词列表titleList,对所述正文分词列表bodyList和所述标题分词列表titleList分别进行过滤预处理;步骤S200:构建词连接集合linkMap;步骤S300:根据所述标题词列表titleList对所述词连接集合linkMap进行修正,得到修正词连接集合,利用所述修正词连接集合计算所述网页中每个词的TextRank得分,得到每个词的得分集合scoreMap,过滤所述得分集合scoreMap中的常用词,余下的所述得分集合scoreMap中的词及其TextRank得分,即为词与网页的关联度。
地址 410073 湖南省长沙市开福区德雅路109号