发明名称 |
词与网页的关联度计算方法及装置 |
摘要 |
本发明提供一种词与网页的关联度计算方法及装置,本发明对网页的标题和正文内容进行分词及预处理,使用标题词与正文词构建词连接集合用于计算词的TextRank得分,将TextRank得分作为词与网页的关联度并保存到数据库。该方法采用TextRank得分作为关联度,可有效地反映词与网页的关联关系,将标题的词用于修正基于正文的词构建的词连接集合,并使用修正后的词连接集合计算词的TextRank得分,充分考虑了标题在网页信息中的重要性,有利于提升关联精度。 |
申请公布号 |
CN105718445A |
申请公布日期 |
2016.06.29 |
申请号 |
CN201610058722.1 |
申请日期 |
2016.01.28 |
申请人 |
中国人民解放军国防科学技术大学 |
发明人 |
刘忠;陈发君;黄金才;朱承;修保新;程光权;陈超;冯旸赫 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京中济纬天专利代理有限公司 11429 |
代理人 |
陈立新 |
主权项 |
一种词与网页的关联度计算方法,其特征在于,包括以下步骤:步骤S100:读取网页的标题和正文内容,进行分词及词性标注,得到正文词列表bodyList和标题词列表titleList,对所述正文分词列表bodyList和所述标题分词列表titleList分别进行过滤预处理;步骤S200:构建词连接集合linkMap;步骤S300:根据所述标题词列表titleList对所述词连接集合linkMap进行修正,得到修正词连接集合,利用所述修正词连接集合计算所述网页中每个词的TextRank得分,得到每个词的得分集合scoreMap,过滤所述得分集合scoreMap中的常用词,余下的所述得分集合scoreMap中的词及其TextRank得分,即为词与网页的关联度。 |
地址 |
410073 湖南省长沙市开福区德雅路109号 |