发明名称 |
一种在网络上提取近义词的方法及系统 |
摘要 |
本发明涉及一种在网络上提取近义词的方法,包括获取网页上各反向链接的锚文本,将所述锚文本两两对比,分别去除重叠的词语,将剩余的词语组成近义词集合,基于所述近义词集合提取近义词。获取上述剩余词语在所述锚文本中的出现频次,所述各反向链接父网页的Rank值,及该父网页所属主域的Rank值,根据上述数值分别计算上述剩余词语中各个词语对的近义概率,选取近义概率超过预设阈值的词语对作为近义词。同时,本发明还提供一种在网络上提取近义词的系统。本发明解决现有技术中近义词提取的广度和精度都较低的问题,本发明提取的近义词具有较高的广度和精度。 |
申请公布号 |
CN101226532B |
申请公布日期 |
2012.10.03 |
申请号 |
CN200710304564.4 |
申请日期 |
2007.12.28 |
申请人 |
腾讯科技(北京)有限公司 |
发明人 |
禹荣凌;刘云峰 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京派特恩知识产权代理事务所(普通合伙) 11270 |
代理人 |
张颖玲;王黎延 |
主权项 |
一种在网络上提取近义词的方法,其特征在于,包括:获取网页上各反向链接的锚文本;计算所述锚文本的权重,去除权重低于预置数值的锚文本;其中,对于子页面的反向链接锚文本,所述锚文本权重为与该子网页属于同主域的父网页的个数、该子网页不属于同主域的父网页的个数分别乘以各自权重系数后之和;将锚文本两两对比,分别去除重叠的词语;将剩余的词语组成近义词集合,基于所述近义词集合提取近义词;其中,如果网页A使用锚文本S链接网页B,则网页A为父网页,网页B为子网页,链接对于网页A为正向链接,对于网页B为反向链接。 |
地址 |
100089 北京市海淀区海淀大街38号银科大厦16层 |