一种基于不完全子树匹配的Web数据记录提取方法,申请号CN201210277173.9-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于不完全子树匹配的Web数据记录提取方法
摘要	本发明公开了一种基于不完全子树匹配的Web数据记录提取方法，包括如下步骤：根据HTTP协议下载网页的HTML源代码，并将下载的字符以统一的UNICODE进行编码；过滤噪声标记信息；利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析，构造网页的Document树；候选子树集抽取；不完全子树匹配；数据记录集确定。本发明具基于子树的匹配，不依赖于网页的模板结构所以方法具有很高的通用性；通过标签过滤和候选子树集的确定，可以有效提高数据抽取过程的性能；基于截取的不完全子树匹配方法判断子树结构之间的相似性，可以有效地消除数据对模板进行填充后导致的结构性差异，提高数据记录提取的精度的优点。
申请公布号	CN102937958B	申请公布日期	2016.03.16
申请号	CN201210277173.9	申请日期	2012.08.06
申请人	厦门市美亚柏科信息股份有限公司	发明人	胡海斌;王慧昌
分类号	G06F17/30(2006.01)I;G06F9/44(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京恒都律师事务所 11395	代理人	安筱琼
主权项	一种基于不完全子树匹配的Web数据记录提取方法，其特征在于：包括如下步骤：a.根据HTTP协议下载网页的HTML源代码，并将下载的字符以统一的UNICODE进行编码；b.过滤噪声标记信息；c.利用NEKO或者HTMLParser的组件对HTML源代码进行解析，构造网页的文档树；d.候选子树集抽取；其中，候选子树集的子树拥有共同的父节点，子树的根节点拥有共同的标签符号，标签的属性相同，子树的节点数目大于一定阈值；e.不完全子树匹配；其中，不完全子树为在子树具有多层级的情况下，抽取从子树的根节点开始的最顶几层节点且去除底层节点而构成的另一个不完全的子树；f.数据记录集确定。
地址	361008 福建省厦门市软件园二期观日路12号102-402单元

您可能感兴趣的专利

Variable displacement pump, valve timing control device using the variable displacement pump, and valve timing control system using the variable displacement pump, for use in internal combustion engines

Engine valve lifter mechanism of internal combustion engine

System for controlling the response time of a hydraulic system

Marine line form habitat

Plasma processor electrode and plasma processor

Determining a speed of media

Light ballistic protection as building elements

Antifriction bearing provided with polymer electronics

Gas sensor and method of making

Indoor unit of an air conditioner

Seal assembly for reducing fluid loss from transmission pump

Assembly procedure for the adjustable pin-valve, fuel shut-off

Apparatus and methods for obtaining measurements below bottom sealing elements of a straddle tool

Metal stud for a wall or roof system

Footing form for upright structural members of buildings

Lateral de-centering of riflescope objective for aiming adjustment

Method of manufacturing an activated carbon fiber soft electric heating product

Multi-function tool and battery tester device

Reversible backstrap for firearm