发明名称 Web页面的标签提取方法及装置
摘要 本发明提供一种Web页面的标签提取方法及装置。本发明实施例通过根据Web页面,获得所述Web页面的位置信息和/或锚文本,使得能够根据所述Web页面的位置信息和/或锚文本,提取所述Web页面的第一标签,由于根据Web页面的位置信息和/或锚文本,有选择地提取Web页面的标签,能够避免现有技术中由于将从标题和正文中提取的词语,直接作为Web页面的标签而导致的所提取的标签不能准确地描述Web页面的问题,从而提高了标签提取的可靠性。
申请公布号 CN103279490A 申请公布日期 2013.09.04
申请号 CN201310150658.6 申请日期 2013.04.26
申请人 百度在线网络技术(北京)有限公司 发明人 黄超;刘其文
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 袁媛
主权项 一种Web页面的标签提取方法,其特征在于,包括:确定待提取的Web页面;根据所述Web页面,获得所述Web页面的位置信息和/或锚文本;根据所述Web页面的位置信息和/或锚文本,提取所述Web页面的第一标签。
地址 100085 北京市海淀区上地十街10号百度大厦