发明名称 一种基于不完全子树匹配的Web数据记录提取方法
摘要 本发明公开了一种基于不完全子树匹配的Web数据记录提取方法,包括如下步骤:根据HTTP协议下载网页的HTML源代码,并将下载的字符以统一的UNICODE进行编码;过滤噪声标记信息;利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析,构造网页的Document树;候选子树集抽取;不完全子树匹配;数据记录集确定。本发明具基于子树的匹配,不依赖于网页的模板结构所以方法具有很高的通用性;通过标签过滤和候选子树集的确定,可以有效提高数据抽取过程的性能;基于截取的不完全子树匹配方法判断子树结构之间的相似性,可以有效地消除数据对模板进行填充后导致的结构性差异,提高数据记录提取的精度的优点。
申请公布号 CN102937958B 申请公布日期 2016.03.16
申请号 CN201210277173.9 申请日期 2012.08.06
申请人 厦门市美亚柏科信息股份有限公司 发明人 胡海斌;王慧昌
分类号 G06F17/30(2006.01)I;G06F9/44(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京恒都律师事务所 11395 代理人 安筱琼
主权项 一种基于不完全子树匹配的Web数据记录提取方法,其特征在于:包括如下步骤:a.根据HTTP协议下载网页的HTML源代码,并将下载的字符以统一的UNICODE进行编码;b.过滤噪声标记信息;c.利用NEKO或者HTMLParser的组件对HTML源代码进行解析,构造网页的文档树;d.候选子树集抽取;其中,候选子树集的子树拥有共同的父节点,子树的根节点拥有共同的标签符号,标签的属性相同,子树的节点数目大于一定阈值;e.不完全子树匹配;其中,不完全子树为在子树具有多层级的情况下,抽取从子树的根节点开始的最顶几层节点且去除底层节点而构成的另一个不完全的子树;f.数据记录集确定。
地址 361008 福建省厦门市软件园二期观日路12号102-402单元