发明名称 基于多页面比较的网页元数据自动抽取方法和系统
摘要 本发明提供了一种基于多页面比较的网页元数据自动抽取方法和系统,属于互联网信息处理领域。互联网的页面都是用松散的HTML来组织的,而HTML语法验证不严格,语义和表现格式混合在一起,给网页数据抽取带来了很大的困难。本发明则能很好的解决这个问题。本发明基于一个假设“动态页面是由同一个模板填入不同的数据生成的”,因而可以通过比较多个相似的页面,进行规约推导,从而得到生成这组页面的模板。本发明包括以下部分:(1)网页采集器:从预设的网站抓取网页;(2)网页分类器:将相似的页面归为一组;(3)网页元数据分析模块:推导模板、抽取元数据;(4)网页元数据存储:存储和索引元数据;(5)元数据搜索引擎:检索和显示元数据。
申请公布号 CN101957816B 申请公布日期 2013.03.20
申请号 CN200910054701.2 申请日期 2009.07.13
申请人 上海华燕置业发展有限公司 发明人 甘雨;李沛剡
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海东创专利代理事务所(普通合伙) 31245 代理人 曹立维
主权项 基于多页面比较的网页元数据自动抽取方法,该方法包括以下步骤:(1)网页采集器从若干个预先设定好的网站抓取网页并存储下来,为后面的分析模块提供输入;(2)逐个输入网页收集器抓取的网页,网页分类器将从同一个列表页面链接出去的页面作为一类页面,批量输入给网页元数据分析模块;(3)输入一组页面,选取其中若干个页面进行规约推导,得到这组页面的模板,再利用该模板扫描这组页面进行数据抽取,得到元数据,并存储下来;(4)网页元数据存储:存储并索引网页元数据分析模块得到的结果;(5)元数据搜索引擎检索和显示分析后的元数据;其中,所述步骤(3)包括以下步骤:(a)模板推导器比较一组网页,进行规约推导,得到这组页面的模板;(b)页面模板中变化的部分是元数据的候选,其中可能包括一些干扰信息,元数据标识器从元数据的候选中将元数据挑出来,并将页面模板中各个变化的部分与元数据的某个字段对应起来;(c)模板评估器将模板中识别到的元数据的字段与用户预设的目标进行比较,如果达到目标则接受该模板,否则,进一步进行推导;(d)模板执行器执行推导出来的页面模板,抽取出元数据;(e)抽取结果处理模块对抽取出的元数据进行一些处理,这些处理是指对数据的单位进行换算,或把自然语言描述的属性映射为某种编码,该模块是一个接口,由用户自己实现;其中,所述步骤(a)包括以下步骤:(a1)对网页进行预处理,将HTML文档转换为标准的XML文档,并且根据用户的设定清除一些标签或节点,或合并一些节点,这些标签或节点往往是可有可无的,仅仅用于排版,没有任何特殊的语义;(a2)将预处理后HTML文档分解为一组token,这里的token包括3种,开始标签,结束标签和文本;(a3)比较2个HTML文档的token串,规约推导出模板,该模板采用一个用union‑free regular expression表示的,其中这里的union‑free regular expression建立在一个包括两个特殊符号#PCDATA和#SUBTREE的字母表上,并包括3种操作符,连接,可选和迭代;#PCDATA表示一个可变的文本串;#SUBTREE表示一个HTML文档中的一个可变的子树,这个子树由其根节点唯一标识,而其内部的具体结构是可变的;连接是将多个token按前后顺序组合在一起;可选表示某个token或一组token可能出现,也可能不出现;迭代表示某个token或一组token可能出现多次;(a4)判断是否还有HTML文档需要参与推导,若无,则结束推导输出目前推导出的模板;若有,则到第(a5)步;(a5)用目前推导出的模板与一个新的HTML文档的token串进行比较,对模板进行求精,推导 出一个新的模板,然后再执行第(a4)步。
地址 200052 上海市延安西路1326号生物大厦16楼