发明名称 |
Web页面的标签提取方法及装置 |
摘要 |
本发明提供一种Web页面的标签提取方法及装置。本发明实施例通过根据Web页面,获得所述Web页面的位置信息和/或锚文本,使得能够根据所述Web页面的位置信息和/或锚文本,提取所述Web页面的第一标签,由于根据Web页面的位置信息和/或锚文本,有选择地提取Web页面的标签,能够避免现有技术中由于将从标题和正文中提取的词语,直接作为Web页面的标签而导致的所提取的标签不能准确地描述Web页面的问题,从而提高了标签提取的可靠性。 |
申请公布号 |
CN103279490A |
申请公布日期 |
2013.09.04 |
申请号 |
CN201310150658.6 |
申请日期 |
2013.04.26 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
黄超;刘其文 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种Web页面的标签提取方法,其特征在于,包括:确定待提取的Web页面;根据所述Web页面,获得所述Web页面的位置信息和/或锚文本;根据所述Web页面的位置信息和/或锚文本,提取所述Web页面的第一标签。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦 |