发明名称 一种网页内容抽取装置和方法
摘要 本发明公开了一种网页内容抽取装置和方法。所述方法包括:根据训练数据定义不同类型的块,以及不同的分类特征;将网页解析成文档对象模型DOM树,获取DOM树的每个结点的分类特征值集合,根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定DOM树的每个结点是否为块,以及块的类型,最后对于DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容。本发明的技术方案中,多维分类特征和块的类型根据训练数据自动生成,无须维护规则,当解决新问题时,只需标注新的训练数,然后根据新的训练数据生成新的块类型和分类特征即可,操作简单,复杂度低,易于维护。
申请公布号 CN103559202A 申请公布日期 2014.02.05
申请号 CN201310464472.8 申请日期 2013.10.08
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 王志刚
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市隆安律师事务所 11323 代理人 权鲜枝;何立春
主权项 一种网页内容抽取装置,其中,该装置包括:训练单元,适于根据训练数据定义不同类型的块,以及不同的分类特征;其中,网页由多个不同类型的块组成,每种类型的块对应一个分类特征值集合,一个分类特征值集合由分别取对应特定值的一个或多个分类特征组成,不同类型的块通过各自对应的分类特征值集合进行区分;解析单元,适于将当前网页解析成文档对象模型DOM树;特征获取单元,适于获取所述DOM树的每个结点的分类特征值集合;块类型确定单元,适于根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合,确定所述DOM树的每个结点是否为块,以及块的类型;内容抽取单元,适于对所述DOM树的被确定为块的结点,如果对应的块类型为需要抽取的类型,则取出该结点的内容。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)