发明名称 |
基于位置标记的网页信息抽取方法和装置 |
摘要 |
本发明公开了一种基于位置标记的网页信息抽取方法和装置。该基于位置标记的网页信息抽取方法,包括以下步骤:获取训练页面,训练页面中标注了至少一个属性,被标注属性的内容与网页中需要抽取的文本内容对应;获取训练页面中多个属性的前缀标签,前缀标签包括当前属性与前一属性之间的所有标签,多个属性包括被标注属性;在被标注属性的前缀标签中选取被标注属性的起始标记;在被标注属性之后的标签中选取结束标记;在需要抽取的网页中查询起始标记和结束标记,并抽取起始标记和结束标记之间的属性内容,以得到属性内容中包含的信息。使用本发明的技术方案,可避免出现人工编写抽取规则的效率低错误率高的问题,提高了网页信息提取的效率。 |
申请公布号 |
CN103473285A |
申请公布日期 |
2013.12.25 |
申请号 |
CN201310385373.0 |
申请日期 |
2013.08.29 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
徐锐波;付赟 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京智汇东方知识产权代理事务所(普通合伙) 11391 |
代理人 |
康正德;郭海彬 |
主权项 |
一种基于位置标记的网页信息抽取方法,包括以下步骤:获取训练页面,所述训练页面中标注了至少一个属性,被标注属性的内容与网页中需要抽取的文本内容对应;获取所述训练页面中多个属性的前缀标签,所述前缀标签包括当前属性与前一属性之间的所有标签,所述多个属性包括所述被标注属性;在所述被标注属性的前缀标签中选取所述被标注属性的起始标记;在所述被标注属性之后的标签中选取结束标记;在需要抽取的网页中查询所述起始标记和所述结束标记,并抽取所述起始标记和所述结束标记之间的属性内容,以得到所述属性内容中包含的信息。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |