发明名称 一种网页信息的抽取方法和系统
摘要 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。
申请公布号 CN103870506B 申请公布日期 2017.02.08
申请号 CN201210548678.4 申请日期 2012.12.17
申请人 中国科学院计算技术研究所 发明人 程学旗;万圣贤;余钧;郭岩;刘悦;张瑾;余智华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 祁建国;梁挥
主权项 一种网页信息的抽取方法,其特征在于,包括:包装器生成步骤,获得已标注网页,构建所述已标注网页的DOM树,根据所述已标注网页中的标注信息生成语义结构树,根据所述语义结构树构建信息模式图,根据所述已标注网页中的标注信息生成语义结构树,确定所述信息模式图的每个语义属性节点在所述已标注网页的DOM树中的最终标注数据区或者最终标注迭代数据区,对于所述每个语义属性节点,获取和保存所述语义属性节点对应的开始节点标签名称集合、结束节点标签名称集合、开始节点相对路径集合、结束节点相对路径集合、特征样本集合、特征权重和分类阈值;对于每个非叶子语义属性节点,获取和保存所述非叶子语义属性节点的标签权重和标签属性权重以及子语义属性节点的全部出现顺序,生成所述信息模式图中每个语义属性节点的语义属性节点信息,根据所述信息模式图和所述语义属性节点信息生成所述包装器,将所述包装器导出为包装器文件;抽取器构建步骤,解析所述包装器文件得到所述信息模式图和所述语义属性节点信息,构建用于抽取所述已标注网页的同类网页的抽取器;待抽取网页抽取步骤,获得待抽取网页,构建所述待抽取网页的DOM树,所述抽取器在所述待抽取网页的DOM树中,从所述信息模式图的根语义属性节点开始逐层递归抽取所述信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;数据导出步骤,导出每个所述语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。
地址 100190 北京市海淀区中关村科学院南路6号