发明名称 基于最大文本密度的网页正文抽取方法
摘要 本发明涉及一种基于最大文本密度的网页正文提取方法,其具体步骤如下:步骤一、网页预处理:处理字符编码、网页规范化;步骤二、将网页解析成一棵DOM树,并根据特定标签,将网页中的“标签文本块”抽取出来;步骤三,计算最大文本密度;步骤四,抽取正文;待所有标签文本块都处理完毕后,按照计算出的文本密度进行排序,选取文本密度值最大的标签,此标签及其嵌套的子标签的内容即是正文文本块,去标签之后得到正文文本。本发明是基于统计的使用最大文本密度的网页正文提取算法,其算法复杂度低,具有普适性,而且对于结构复杂的网页也有不错的效果。
申请公布号 CN103714176A 申请公布日期 2014.04.09
申请号 CN201410007832.6 申请日期 2014.01.08
申请人 同济大学 发明人 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;何源;夏琳娟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海天协和诚知识产权代理事务所 31216 代理人 叶凤
主权项 1.一种基于最大文本密度的网页正文提取方法,其具体步骤如下:步骤一、网页预处理:处理字符编码设定编码方式GBK、BG2312、BIG-5、UTF-8、UTF-16、UNICODE;在HTML文档里,编码方式是这样定义的: &lt;html&gt;    &lt;head&gt;&lt;meta content=’text/html’; charset=’GBK’&gt;&lt;/head&gt; &lt;/html&gt;  charset属性定义了网页的编码方式; 在网页预处理阶段,将获取的网页文件的默认编码转为UTF-8字符编码; (2)网页规范化根据HTML文档的基本语法要求,确保关闭打开的标签、所有的属性值用双引号括起来、完成特殊字符的转义三种情况;步骤二、将网页解析成一棵DOM树,并根据特定标签,将网页中的“标签文本块”抽取出来;(1)定义1成为一个“标签文本块”,标签文本块之间可嵌套,即一个标签文本块内可包含若干个子标签文本块;把含有正文内容的标签文本块称为正文文本块,将不含有正文内容的标签文本块称为噪音文本块;(2)删除网页中与正文抽取不相关的信息;(3)对每个标签文本块进行分析,判断其是否属于正文内容文本块;定义2文本密度值:在一个标签文本块中,其中的文本在整个标签文本块的长度(包括标签)所占的比值;判断正文文本块的算法中涉及到的文本密度Density,对于一个标签文本块A 来说,它的计算公式表示为:<img file="2014100078326100001DEST_PATH_IMAGE002.GIF" wi="266" he="38" />当遇到正文内容较短情况时,给PlainTextLength赋予更大的权重,得到衍生公式:<img file="2014100078326100001DEST_PATH_IMAGE004.GIF" wi="420" he="39" />步骤三,计算最大文本密度:以递归方式遍历所有标签文本块,对于一个标签文本块来说,只有当它的子文本块全部处理完毕后,才处理本标签文本块;步骤四,抽取正文:待所有标签文本块都处理完毕后,按照计算出的文本密度进行排序,选取文本密度值最大的标签,此标签及其嵌套的子标签的内容即是正文文本块,去标签之后得到正文文本。
地址 200092 上海市杨浦区四平路1239号