主权项 |
一种网页信息的抽取方法,其特征在于,包括:包装器生成步骤,获得已标注网页,构建所述已标注网页的DOM树,根据所述已标注网页中的标注信息生成语义结构树,根据所述语义结构树构建信息模式图,根据所述已标注网页中的标注信息生成语义结构树,确定所述信息模式图的每个语义属性节点在所述已标注网页的DOM树中的最终标注数据区或者最终标注迭代数据区,对于所述每个语义属性节点,获取和保存所述语义属性节点对应的开始节点标签名称集合、结束节点标签名称集合、开始节点相对路径集合、结束节点相对路径集合、特征样本集合、特征权重和分类阈值;对于每个非叶子语义属性节点,获取和保存所述非叶子语义属性节点的标签权重和标签属性权重以及子语义属性节点的全部出现顺序,生成所述信息模式图中每个语义属性节点的语义属性节点信息,根据所述信息模式图和所述语义属性节点信息生成所述包装器,将所述包装器导出为包装器文件;抽取器构建步骤,解析所述包装器文件得到所述信息模式图和所述语义属性节点信息,构建用于抽取所述已标注网页的同类网页的抽取器;待抽取网页抽取步骤,获得待抽取网页,构建所述待抽取网页的DOM树,所述抽取器在所述待抽取网页的DOM树中,从所述信息模式图的根语义属性节点开始逐层递归抽取所述信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;数据导出步骤,导出每个所述语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。 |