发明名称 一种提取网页内容的实现方法
摘要 一种提取网页内容的实现方法,包括以下步骤:步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;步骤S120,对网页类型进行判断,首先判断出导航页,并将导航页删除;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是;步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。本发明提供一种适用性良好、兼有较好实时性的提取网页内容的实现方法。
申请公布号 CN102663023B 申请公布日期 2014.09.17
申请号 CN201210078159.6 申请日期 2012.03.22
申请人 浙江盘石信息技术有限公司 发明人 刘金玉;田宁;刘崟;谭磊
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州天正专利事务所有限公司 33201 代理人 王兵;王利强
主权项 一种提取网页内容的实现方法,其特征在于:所述实现方法包括以下步骤: 步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块; 所述步骤S110中,网页进行分割处理的流程为: 步骤S210,将输入的网页进行预处理: 步骤S310,将网页解析成文档对象模型DOM树:依次读入网页的内容,识别每个HTML标签的名称、类别、参数和内容,以树状结构进行存储,从而形成网页的DOM树; 步骤S320,清理DOM树中的无用节点,所述无用节点是指与主题信息抽取无关的节点,包括脚本、样式控制信息和注释以及空格文本节点; 步骤S220,构建新的DOM树,对DOM树中节点定义所需要的语义属性:链接个数、链接长度、文本长度和无关词长度,并将标签为table的节点标签改为div; 步骤S230,统计文档对象模型树中每个节点的语义信息以及每个节点的视觉属性,为后面的分块和信息提取作准备,其中,所述语义信息包括链接总个数及语义属性,所述视觉属性包括背景颜色和字体的大小、粗细、颜色; 步骤S240,构建只包含div节点的DIV树,根据设定的阈值及判定规则,利用节点统计的语义属性进行分块,判断的顺序是由下而上; 所述步骤S240的网页分块过程为: 步骤S410,根据DIV树中div节点的语义属性对网页进行分块; 步骤S420,对步骤S410的分块结果根据视觉属性判断是否合理;视觉属性是步骤S230保存的节点的背景颜色和节点中包含字体的颜色、大小、粗细,对应设置权值分别为α、β、γ、ω;定义一个权值函数f(α,β,γ,ω)来判断当前块是否再可分;当函数值大于设定的阈值R时,说明当前块可再分,否则就不再可分; 接下来,再利用以下判定规则判断相邻分块间内容上的差异度,具体规则如下: (1)相邻两块的距离越远,差异度越大,设置权值就越大; (2)相邻两块的背景色不同,差异度越大,设置权值就越大; (3)对于上下相邻的两块,如果块中字体的大小特征差异性越大,则权值越大;如果上方分块中的字体大小要小于下方分块中的字体,则权值较大,字体大小差异越大,权值越大;但是当两侧分块中的内容较为相似时,则设置权值就较小; 通过上述规则,如果相邻两块的权值小于所设定的阈值T时就合并,否则就不合并; 步骤S120,对网页类型进行判断,根据统计的根节点的链接总长度a、文本总长度b、链接总个数c,定义链接密度为<img file="FDA0000524062660000021.GIF" wi="105" he="123" />设定P是链接密度的阈值,Q是链接总个数的阈值,如果当前的布局块的链接密度和链接总个数均大于阈值,则判定为导航页;步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据布局块的链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页,否则不是; 步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。 
地址 310011 浙江省杭州市拱墅区祥园路45号盘石大厦