发明名称 基于位置标记的网页信息抽取方法和装置
摘要 本发明公开了一种基于位置标记的网页信息抽取方法和装置。该基于位置标记的网页信息抽取方法,包括以下步骤:获取训练页面,训练页面中标注了至少一个属性,被标注属性的内容与网页中需要抽取的文本内容对应;获取训练页面中多个属性的前缀标签,前缀标签包括当前属性与前一属性之间的所有标签,多个属性包括被标注属性;在被标注属性的前缀标签中选取被标注属性的起始标记;在被标注属性之后的标签中选取结束标记;在需要抽取的网页中查询起始标记和结束标记,并抽取起始标记和结束标记之间的属性内容,以得到属性内容中包含的信息。使用本发明的技术方案,可避免出现人工编写抽取规则的效率低错误率高的问题,提高了网页信息提取的效率。
申请公布号 CN103473285A 申请公布日期 2013.12.25
申请号 CN201310385373.0 申请日期 2013.08.29
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 徐锐波;付赟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京智汇东方知识产权代理事务所(普通合伙) 11391 代理人 康正德;郭海彬
主权项 一种基于位置标记的网页信息抽取方法,包括以下步骤:获取训练页面,所述训练页面中标注了至少一个属性,被标注属性的内容与网页中需要抽取的文本内容对应;获取所述训练页面中多个属性的前缀标签,所述前缀标签包括当前属性与前一属性之间的所有标签,所述多个属性包括所述被标注属性;在所述被标注属性的前缀标签中选取所述被标注属性的起始标记;在所述被标注属性之后的标签中选取结束标记;在需要抽取的网页中查询所述起始标记和所述结束标记,并抽取所述起始标记和所述结束标记之间的属性内容,以得到所述属性内容中包含的信息。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)