发明名称 基于文本标签特征挖掘的网页正文提取方法
摘要 本发明公开了一种基于文本标签特征挖掘的网页正文提取方法,包括以下步骤:S1、进行网页标签预处理及Html标签修复;S2、Html标签特征选择及提取;S3、标签特征聚类挖掘及正文簇选择;S4、正文簇内标签经验性调整;S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘,运用层次聚类算法对网页标签进行聚类,提取出正文标签所在的簇,再根据经验对标签簇内的标签进行调整,再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言,具有更好的通用性、高准确率、易用性,不用针对特定网页做任何特殊设定。
申请公布号 CN106339455A 申请公布日期 2017.01.18
申请号 CN201610729817.1 申请日期 2016.08.26
申请人 电子科技大学 发明人 于富财;文友枥;陈西安;袁进;吴轶铭;申洲;汪辉;鲁才
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都宏顺专利代理事务所(普通合伙) 51227 代理人 周永宏;王伟
主权项 基于文本标签特征挖掘的网页正文提取方法,其特征在于,包括以下步骤:S1、进行网页标签预处理及Html标签修复;S2、Html标签特征选择及提取;S3、标签特征聚类挖掘及正文簇选择;S4、正文簇内标签经验性调整;S5、正文簇标签文本提取。
地址 611731 四川省成都市高新区(西区)西源大道2006号