发明名称 基于文本结构权重的主题区域识别方法
摘要 本发明提出了基于文本结构权重的主题区域识别方法,该方法基于树结构,将Web网页解析为标签树,在树匹配基础上,改进了数据区域挖掘和语义链接块识别技术,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果识别主题区域;最后采用归一化的方法计算主题区域内的文本结点相对长度值,利用归一化相对长度值,有效的去除和主题内容无关的文本节点实现了主题区域去噪,得到准确的主题内容。应用本发明技术方案能准确快速的挖掘出Web上有价值的信息,有着广阔的应用前景。
申请公布号 CN102306204B 申请公布日期 2013.03.13
申请号 CN201110302004.1 申请日期 2011.09.28
申请人 武汉大学 发明人 徐武平;徐爱萍;杨少博
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 薛玲
主权项 一种基于文本结构权重的主题区域识别方法,其特征在于,包括以下步骤:步骤1,将待识别Web网页转换成标签树,具体通过以下步骤实现,步骤1.1,通过对待识别Web网页的HTML文档进行字符扫描,识别出起始节点、结束节点、全结构节点和文本节点;所述起始节点是以字符“<”开始,以字符“>”为结束,且这两者之间不存在字符“<”和“>”的字符串;所述结束节点是以字符“</”开始,以字符“>”为结束,且这两者之间不存在字符“<”、“>”和“/”的字符串;所述全结构节点是以字符“<”开始,以字符“/>”为结束,且这两者之间不存在字符“<”、“>”和“/”的字符串;所述文本节点是以上三种节点以外的字符串;步骤1.2,采用解析器,依据步骤1.1识别出的起始节点、结束节点、全结构节点和文本节点进行标签树的构建,得到的标签树记为A;构建过程利用堆栈操作来确定各节点的层次关系,包括以下堆栈操作,当解析器发现一个起始节点时,触发入栈操作和在当前标签树中新建标签操作,当解析器发现一个结束节点时,触发退栈操作,当解析器发现一个全结构节点时,触发入栈操作,同时更新标签树,在更新标签树完成后立刻退栈操作;当解析器发现一个文本节点时,触发入栈操作,入栈操作后立刻退栈操作;步骤2,在步骤1所得标签树A中搜索相似区域,并进行去链接预处理,得到标签树B,具体通过以下步骤实现,步骤2.1,在步骤1所得标签树A中搜索相似区域;所述相似区域是由一组相似节点组成的,相似节点是标签树A中满足以下特性的节点,(1)所有的节点共同拥有同一个父节点;(2)所有节点是相邻的;(3)相似节点是子树的根节点或叶子节点;(4)与同一区域中的其他节点的相似度大于预设的阈值a;步骤2.2,在步骤2.1搜索到的所有相似区域中识别语义链接块,并将识别出的语义链接块从标签树A中摘除,得到标签树B;所述语义链接块是指由链接组成的,在视觉上呈列表状,每一项表现为超级链接的网页区域;步骤3,对步骤2所得标签树B进行主题内容抽取,具体通过以下步骤实现,步骤3.1,求出标签树B中所有节点的文本结构权重,找出某棵子树链下文本结构权重值最大的节点,该节点所在相似区域即主题区域,该节点记为主题区域节点C;所述文本结构权重是指文本在相似区域中所占的比重,取某一节点R,此节点的子树中不被链接标签包含的文本节点个数与其文本长度的乘积除以此节点的孩子节点数,其形式化表示为: <mrow> <mi>W</mi> <mo>=</mo> <mfrac> <mrow> <mi>T</mi> <mo>-</mo> <mi>A</mi> </mrow> <mi>N</mi> </mfrac> <mo>*</mo> <msub> <mi>C</mi> <mrow> <mi>T</mi> <mo>-</mo> <mi>A</mi> </mrow> </msub> </mrow>其中T的含义是节点R的子树中所包含的文本节点个数,A代表节点R的子树中所包含的链接节点,N是节点R的子树中所有的孩子节点数目,CT‑A是指不被链接标签包含的文本节点的文本总长度;设有一父节点F,其拥有N棵子树R1、R2、R3……Rn,其中子树的根不是链接节点或者文本节点,计算出R1、R2、R3……Rn的权值如下, <mrow> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>T</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>A</mi> <mn>1</mn> </msub> </mrow> <msub> <mi>N</mi> <mn>1</mn> </msub> </mfrac> <mo>*</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> </mrow> <mrow> <msub> <mi>W</mi> <mn>2</mn> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>T</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>A</mi> <mn>2</mn> </msub> </mrow> <msub> <mi>N</mi> <mn>2</mn> </msub> </mfrac> <mo>*</mo> <msub> <mi>C</mi> <mn>2</mn> </msub> </mrow> <mrow> <msub> <mi>W</mi> <mn>3</mn> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>T</mi> <mn>3</mn> </msub> <mo>-</mo> <msub> <mi>A</mi> <mn>3</mn> </msub> </mrow> <msub> <mi>N</mi> <mn>3</mn> </msub> </mfrac> <mo>*</mo> <msub> <mi>C</mi> <mn>3</mn> </msub> </mrow> <mrow> <mi>Wn</mi> <mo>=</mo> <mfrac> <mrow> <mi>Tn</mi> <mo>-</mo> <mi>An</mi> </mrow> <mi>Nn</mi> </mfrac> <mo>*</mo> <mi>Cn</mi> </mrow>其中T1、T2、T3…Tn分别是子树R1、R2、R3……Rn的子树中所包含的文本节点个数,A1、A2、A3…An分别代表子树R1、R2、R3……Rn的子树中所包含的链接节点,N1、N2、N3…Nn分别是子树R1、R2、R3……Rn的子树中所有的孩子节点数目,C1、C2、C3…Cn分别是指子树R1、R2、R3……Rn不被链接标签包含的文本节点的文本总长度;父节点的权值由它第一层孩子节点来计算得到,公式如下, <mrow> <msub> <mi>W</mi> <mi>F</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> </mfrac> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>N</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>N</mi> </mrow> </mfrac> <mo>*</mo> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>C</mi> <mn>2</mn> </msub> <mo>+</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>+</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow>步骤3.2,对步骤3.1所得主题区域进行去噪,包括两个步骤;步骤3.2.1,获取步骤3.1所得主题区域节点C的子树所包含的所有文本节点的长度,其 中最大长度记为maxlength;步骤3.2.2,遍历主题区域节点C的子树,根据最大长度maxlength对子树中每一个文本节点的长度计算归一化值,并与预设的阈值K比较;如果不小于预设的阈值K则保留,否则从主题区域节点C的子树中摘除该文本节点;步骤3.3,对步骤3.2所得去噪后的主题区域所对应的节点输出,即输出最底层叶子节点的文本内容,得到待识别Web网页的主题内容。
地址 430072 湖北省武汉市武昌区珞珈山武汉大学