发明名称 |
网页关键词提取方法、装置及系统 |
摘要 |
本发明实施例公开了一种网页关键词提取方法,包括,爬取互联网网页;提取爬取下来的网页中的锚文本,提取所述锚文本的URL和所述锚文本的周围文本;根据预定的规则,从所述锚文本和所述锚文本的周围文本中提取关键词;将所述关键词和所述锚文本的URL关联,将所述关键词作为所述锚文本的URL指向的网页的网页关键词。本发明实施例还公开了一种网页关键词提取装置和系统,通过以上技术方案可以减少网页关键词提取的计算量,提高关键词提取的精准度。 |
申请公布号 |
CN102135967B |
申请公布日期 |
2013.06.05 |
申请号 |
CN201010103257.1 |
申请日期 |
2010.01.27 |
申请人 |
华为技术有限公司 |
发明人 |
陆元飞;刘刚;朱汝维 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京亿腾知识产权代理事务所 11309 |
代理人 |
陈霁 |
主权项 |
一种网页关键词提取方法,其特征在于,包括:爬取互联网网页;提取爬取下来的网页中的锚文本,提取所述锚文本的统一资源定位符URL和所述锚文本的周围文本;根据预定的规则,从所述锚文本和所述锚文本的周围文本中提取关键词;将所述关键词和所述锚文本的URL关联,将所述关键词作为所述锚文本的URL指向的网页的网页关键词;所述锚文本的周围文本包括:与所述锚文本所在的超文本标识语言HTML节点的距离在预置范围内的文本或/和HTML标签;或者,从包含所述锚文本的标签容器中提取的文本;或者,与所述锚文本的距离在预置范围内的网页文本。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |