发明名称 基于树权值的网页数据记录识别和抽取方法
摘要 本发明公开了基于树权值的网页数据记录识别和抽取方法,包括如下步骤:网页处理和转化;数据记录识别;数据记录对准和抽取;数据存储;根据HTML网页的内容的树结构特点,通过对抓取到的网页进行处理转化为标签树结构,自底而上的为每个树节点赋上权值,使得不同层次的节点具有不同的权值,然后根据相似子树集和位置连续性来识别出数据记录区域,然后根据包含数据记录的标签树集进行树对准操作生成基准树作为抽取模板,可以得到高效率和高准确度的结果。
申请公布号 CN102591931B 申请公布日期 2015.03.18
申请号 CN201110438187.X 申请日期 2011.12.23
申请人 浙江大学 发明人 尹建伟;彭勇;杨弈锦;邓水光;李莹;吴健;吴朝晖
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州裕阳专利事务所(普通合伙) 33221 代理人 江助菊
主权项 基于树权值的网页数据记录识别和抽取方法,其特征在于,包括如下步骤:(1)网页处理和转化;(2)数据记录识别;(3)数据记录对准和抽取;(4)数据存储;所述网页处理和转化包括如下步骤:11)对抓取的网页依据标签的作用进行分类后构造标签树;12)对所述标签树的每个树节点按照如下公式赋予权值:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>W</mi><mo>=</mo><msup><mi>&lambda;</mi><mi>depth</mi></msup><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>SubW</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0000614723620000011.GIF" wi="835" he="252" /></maths>其中SubW<sub>i</sub>为子树节点权值,λ为权值调节参数,depth为树的深度,若某节点的权值为0,则认为该节点是无关标签节点,若树节点为无关标签节点,则该树节点对应的λ=0;若树节点为叶子节点且该树节点为文本节点或图片节点则该树节点权值W=1,若为其他类型则该树节点权值W=0;所述无关标签包括超链接标签,描述显示特点的标签;所述数据记录识别包括如下步骤:13)将步骤12)经过赋予权值后的标签树作为输入树输入数据记录模块,所述数据记录模块首先访问模板树库,根据所述模板树库中的模板树的必选子树集权值进行比较查找,若所述输入树包含必选子树集权值,则该输入树能用该模板树进行数据记录识别,获取相应的数据记录区域,若在所述模板树库中找不出对应模板树,则进行自适应的识别数据记录,通过对自身连续区域的相似子树的判断识别出数据记录区域,获取相应的数据记录区域;所述数据记录对准和抽取包括如下步骤:14)在步骤13)获取的包含数据记录区域的数组中权值最大的标签树作为基准树T<sub>b</sub>,数据记录对准和抽取的对象主要是标签树集通过数据记录识别后返回的包含数据记录区域的数组,之所以选择权值最大的原因,是因为该树将具有最深或者最广的树结构,使得其他树能够更容易的与之对准;之后对于数据记录区域数组中的剩下每棵标签树T<sub>i</sub>,根据先权值后标签,权值按从大到小顺序的方式找出标签树T<sub>i</sub>下所有能够对准所述基准树T<sub>b</sub>的节点,若找出一个节点T<sub>i</sub>[j]在基准树T<sub>b</sub>下存在权值大于或者等于阀值K,并且节点标签一致的节点T<sub>b</sub>[k],那么将认为节点T<sub>i</sub>[j]是可以对准的;如果不存在能够对准的节点则执行插入操作,将节点T<sub>i</sub>[j]插入到所述基准树T<sub>b</sub>中使得对所述基准树T<sub>b</sub>进行调整,调整后的基准树T<sub>b</sub>将用于数据记录区域数组中其他标签树的对准,最后产生最终的基准树T<sub>b</sub>;所述数据存储包括如下步骤:15)将标签树集合与通过步骤14)对准后产生的带有属性标注的模板树进行数据匹配获取信息,将结果以数据库的形式进行保存,而对于步骤14)对准后的数据的存储,将对属性标注的属性进行数据库建表,从而在数据对准时将标签树集合中每一棵标签树对应到数据库表中的一条记录;所述步骤11)依据标签的作用将HTML的标签分为三类:第一为规划网页布局的标签其提供内容信息区域的标签;第二为描述显示特点的标签其包含内容显示方式的标签;第三为超链接相关的标签;在采用步骤12)对每个树节点赋予权值之前,对网页进行除噪,所述除噪步骤为对标签树进行修剪,包括对叶子节点标签设为无关标签、相邻文本或图片节点的父节点标签设为无关标签、无兄弟的文本或图片节点的父节点标签为无关标签;所述步骤13)对于数据记录识别需要对标签树进行比较来判断其相似程度,采用的比较方法为:如果标签树T1的子树集里与标签树T2的子树集里存在权值相等的交集,则必须满足存在大于阀值K的子树,同时权值相等子树集必须存在顺序关系,例如W[T1[i]]==W[T2[j]]且W[T1[k]]==W[T2[t]]时,当且仅当i&lt;=k时j&lt;=t,则设标签树T1和标签树T2相似;所述步骤14)所述插入操作的插入位置通过如下步骤确定:如果节点序列T<sub>i</sub>[j]…T<sub>i</sub>[m]在标签树T<sub>i</sub>的共同父节点下有2个相邻兄弟节点,一个在最左边,一个在最右边,这两个兄弟节点都在基准树T<sub>b</sub>下有对应的对准节点,那么节点序列T<sub>i</sub>[j]…T<sub>i</sub>[m]能够唯一的插入到基准树T<sub>b</sub>下2个相邻兄弟节点之间;如果节点序列T<sub>i</sub>[j]…T<sub>i</sub>[m]在标签树T<sub>i</sub>的共同父节点下只有1个左相邻兄弟节点k,并且节点k对应基准树T<sub>b</sub>下的最右边的节点,那么节点序列T<sub>i</sub>[j]…T<sub>i</sub>[m]能够唯一的插入到基准树T<sub>b</sub>下节点k的最右边位置;如果节点序列T<sub>i</sub>[j]…T<sub>i</sub>[m]在标签树T<sub>i</sub>的共同父节点下只有1个右相邻兄弟节点k,并且节点k对应基准树T<sub>b</sub>下的最左边的节点,那么节点序列T<sub>i</sub>[j]…T<sub>i</sub>[m]能够唯一的插入到基准树T<sub>b</sub>下节点k的最左边的位置;如果不能唯一确定标签树T<sub>i</sub>下一个非对准节点k在基准树T<sub>b</sub>下的位置,那么将执行不插入,而是将标签树T<sub>i</sub>放到临时数据记录数组里。
地址 310027 浙江省杭州市西湖区浙大路38号