一种网页内容抽取装置和方法,申请号CN201310464472.8-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种网页内容抽取装置和方法
摘要	本发明公开了一种网页内容抽取装置和方法。所述方法包括：根据训练数据定义不同类型的块，以及不同的分类特征；将网页解析成文档对象模型DOM树，获取DOM树的每个结点的分类特征值集合，根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合，确定DOM树的每个结点是否为块，以及块的类型，最后对于DOM树的被确定为块的结点，如果对应的块类型为需要抽取的类型，则取出该结点的内容。本发明的技术方案中，多维分类特征和块的类型根据训练数据自动生成，无须维护规则，当解决新问题时，只需标注新的训练数，然后根据新的训练数据生成新的块类型和分类特征即可，操作简单，复杂度低，易于维护。
申请公布号	CN103559202A	申请公布日期	2014.02.05
申请号	CN201310464472.8	申请日期	2013.10.08
申请人	北京奇虎科技有限公司;奇智软件（北京）有限公司	发明人	王志刚
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京市隆安律师事务所 11323	代理人	权鲜枝;何立春
主权项	一种网页内容抽取装置，其中，该装置包括：训练单元，适于根据训练数据定义不同类型的块，以及不同的分类特征；其中，网页由多个不同类型的块组成，每种类型的块对应一个分类特征值集合，一个分类特征值集合由分别取对应特定值的一个或多个分类特征组成，不同类型的块通过各自对应的分类特征值集合进行区分；解析单元，适于将当前网页解析成文档对象模型DOM树；特征获取单元，适于获取所述DOM树的每个结点的分类特征值集合；块类型确定单元，适于根据所定义的所有分类特征以及每种类型的块对应的分类特征值集合，确定所述DOM树的每个结点是否为块，以及块的类型；内容抽取单元，适于对所述DOM树的被确定为块的结点，如果对应的块类型为需要抽取的类型，则取出该结点的内容。
地址	100088 北京市西城区新街口外大街28号D座112室（德胜园区）

您可能感兴趣的专利

COMPOSITIONS COSMETIQUES DETERGENTES A USAGE CAPILLAIRE ET UTILISATION

PROCEDE DE CONDUITE ET DE PROTECTION D'UN NAVIRE

Fluid parameter measurement device for measuring e.g. temperature or composition of high temperature fluid

Rigging clip for tarpaulin

VIBRATEUR A AIGUILLE PORTATIF

DISPOSITIF DE CONTROLE EN CONTINU DU CONTENANT D'ENCEINTES FERMEES HERMETIQUEMENT

DISPOSITIF POUR LIER LES CHEVEUX EN TOUFFES, MECHES, COUETTES, NATTES, QUEUES DE CHEVAL ET AUTRES

DTMF SIGNAL DETECTING METHOD AND DETECTOR APPLIED WITH IT

SEMICONDUCTOR INTEGRATED CIRCUIT

SEMICONDUCTOR LOGIC CIRCUIT

PORTABLE TELEPHONE SET

MAGNETISM SHIELDING MATERIAL

STRUCTURE FOR CONTROL UNIT MOUNTING

FREQUENCY SYNTHESIZER

METHOD AND DEVICE FOR REUSING LIQUID CRYSTAL DEVICE, AND PEELING DEVICE AND IC PEELING DEVICE FOR ANISOTROPIC CONDUCTIVE FILM

CIRCUIT AND METHOD FOR CONTROLLING QUALITY OF LIGHT

ELECTRONIC COMPONENT COOLING APPARATUS

ELECTROMAGNETIC WAVE SHIELDING SHEET

INSULATED GATE ELECTRIC FIELD-EFFECT TRANSISTOR

SOLID-STATE IMAGE PICKUP DEVICE AND METHOD OF FABRICATING THE SAME