发明名称 网页内容抽取方法和网页内容抽取系统
摘要 本发明提供了一种网页内容抽取方法和和网页内容抽取系统。该网页内容抽取方法包括:提取网页对应的DOM树结构;遍历DOM树,获取DOM树中各结点的维度特征;将各结点的维度特征按照预定规则输入决策树,对各结点进行分类,并根据决策树的分类结果确定网页的结构分块;按照结构分块选择性抽取相应的网页内容。利用本发明的技术方案,根据网页的DOM树结构进行结构分块,根据结构分块过滤掉无关块的内容,抽取出需要的分块的网页内容,分块和抽取过程中不需要使用人工规则,解决了人工规则效率低、维护复杂的问题。
申请公布号 CN103473338B 申请公布日期 2016.10.05
申请号 CN201310432426.X 申请日期 2013.09.22
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 王志刚
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京智汇东方知识产权代理事务所(普通合伙) 11391 代理人 康正德;范晓斌
主权项 一种网页内容抽取方法,包括:提取网页对应的DOM树结构;遍历所述DOM树,获取所述DOM树中各结点的维度特征;将所述各结点的维度特征按照预定规则输入决策树,对所述各结点进行分类,并根据所述决策树的分类结果确定所述网页的结构分块;按照所述结构分块选择性抽取相应的网页内容,其中,根据所述决策树的分类结果确定所述网页的结构分块的步骤进一步包括:根据决策树对所述DOM树中各结点的分类结果构建所述网页的第一分块序列,其中第一分块序列包括多个结构分块;将所述第一分块序列输入条件随机场进行优化计算,得到第二分块序列,其中第二分块序列包括一个或多个经优化后的结构分块。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)