网页信息抽取方法和装置,申请号CN201310455343.2-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	网页信息抽取方法和装置
摘要	本发明提供一种网页信息抽取方法和装置。该方法包括：根据多个已标注属性的样本网页构建对应的多个第一DOM树，并根据多个第一DOM树构建决策树；根据多个未标注属性的样本网页构建对应的多个第二DOM树，并根据多个第二DOM树优化决策树；根据优化后的决策树抽取待抽取网页的结构化信息；其中，已标注属性的样本网页、未标注属性的样本网页和待抽取网页属于同一领域。本发明提供的网页信息抽取方法和装置，根据多个已标注属性的样本网页构建决策树，根据多个未标注属性的样本网页优化该决策树，由于决策树的构建和优化不单单依赖于网页的布局风格，因此优化后的决策树可以适用于同一领域各种布局风格的网页的信息抽取，省时省力。
申请公布号	CN103559199A	申请公布日期	2014.02.05
申请号	CN201310455343.2	申请日期	2013.09.29
申请人	北京航空航天大学	发明人	刘旭东;孙海龙;周子龙;张日崇
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京同立钧成知识产权代理有限公司 11205	代理人	刘芳
主权项	一种网页信息抽取方法，其特征在于，包括：根据多个已标注属性的样本网页构建对应的多个第一文档对象类型DOM树，并根据所述多个第一DOM树构建决策树；根据多个未标注属性的样本网页构建对应的多个第二DOM树，并根据所述多个第二DOM树优化所述决策树；根据优化后的决策树，抽取待抽取网页的结构化信息；其中，所述多个已标注属性的样本网页、所述多个未标注属性的样本网页和所述待抽取网页为属于同一领域的网页。
地址	100191 北京市海淀区学院路37号

您可能感兴趣的专利

System and method for extracting reflection and transparency layers from multiple images

Integrated connector with CATV tap assembly

Bar code symbol scanning system having multiple scanning stations for producing a 3-D scanning volume free of substantially and temporally coincident scanning planes

Signal transmission system using PRD method, receiver circuit for use in the signal transmission system, and semiconductor memory device to which the signal transmission system is applied

Plasma display panel with height variations of intersecting first and second barrier ribs

Compounds acting as melanocortin receptor ligands

Human antibodies specific for interleukin 15 (IL-15)

Tumor suppressor gene

Light deflection element and light source apparatus using the same

Optical apparatus

Linear guiding apparatus

Method and apparatus for generating images

Method and apparatus for managing host-based data services using CIM providers

Semiconductor device and method of manufacturing the same

Method for reducing amine based contaminants

Pressure element for an edge gluing machine and gluing method

Object detection method and system

Analog interface structures and methods for digital displays

Semiconductor device with magnetically permeable heat sink