基于最大文本密度的网页正文抽取方法,申请号CN201410007832.6-传众专利搜索

发明名称	基于最大文本密度的网页正文抽取方法
摘要	本发明涉及一种基于最大文本密度的网页正文提取方法，其具体步骤如下：步骤一、网页预处理：处理字符编码、网页规范化；步骤二、将网页解析成一棵DOM树，并根据特定标签，将网页中的“标签文本块”抽取出来；步骤三，计算最大文本密度；步骤四，抽取正文；待所有标签文本块都处理完毕后，按照计算出的文本密度进行排序，选取文本密度值最大的标签，此标签及其嵌套的子标签的内容即是正文文本块，去标签之后得到正文文本。本发明是基于统计的使用最大文本密度的网页正文提取算法，其算法复杂度低，具有普适性，而且对于结构复杂的网页也有不错的效果。
申请公布号	CN103714176A	申请公布日期	2014.04.09
申请号	CN201410007832.6	申请日期	2014.01.08
申请人	同济大学	发明人	蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;何源;夏琳娟
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	上海天协和诚知识产权代理事务所 31216	代理人	叶凤
主权项	1.一种基于最大文本密度的网页正文提取方法，其具体步骤如下：步骤一、网页预处理：处理字符编码设定编码方式GBK、BG2312、BIG-5、UTF-8、UTF-16、UNICODE；在HTML文档里，编码方式是这样定义的： <html> <head><meta content=’text/html’; charset=’GBK’></head> </html> charset属性定义了网页的编码方式；在网页预处理阶段，将获取的网页文件的默认编码转为UTF-8字符编码； (2)网页规范化根据HTML文档的基本语法要求，确保关闭打开的标签、所有的属性值用双引号括起来、完成特殊字符的转义三种情况；步骤二、将网页解析成一棵DOM树，并根据特定标签，将网页中的“标签文本块”抽取出来；（1）定义1成为一个“标签文本块”，标签文本块之间可嵌套，即一个标签文本块内可包含若干个子标签文本块；把含有正文内容的标签文本块称为正文文本块，将不含有正文内容的标签文本块称为噪音文本块；（2）删除网页中与正文抽取不相关的信息；（3）对每个标签文本块进行分析，判断其是否属于正文内容文本块；定义2文本密度值：在一个标签文本块中，其中的文本在整个标签文本块的长度(包括标签)所占的比值；判断正文文本块的算法中涉及到的文本密度Density，对于一个标签文本块A 来说，它的计算公式表示为：<img file="2014100078326100001DEST_PATH_IMAGE002.GIF" wi="266" he="38" />当遇到正文内容较短情况时，给PlainTextLength赋予更大的权重，得到衍生公式：<img file="2014100078326100001DEST_PATH_IMAGE004.GIF" wi="420" he="39" />步骤三，计算最大文本密度：以递归方式遍历所有标签文本块，对于一个标签文本块来说，只有当它的子文本块全部处理完毕后，才处理本标签文本块；步骤四，抽取正文：待所有标签文本块都处理完毕后，按照计算出的文本密度进行排序，选取文本密度值最大的标签，此标签及其嵌套的子标签的内容即是正文文本块，去标签之后得到正文文本。
地址	200092 上海市杨浦区四平路1239号