基于文本标签特征挖掘的网页正文提取方法,申请号CN201610729817.1-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	基于文本标签特征挖掘的网页正文提取方法
摘要	本发明公开了一种基于文本标签特征挖掘的网页正文提取方法，包括以下步骤：S1、进行网页标签预处理及Html标签修复；S2、Html标签特征选择及提取；S3、标签特征聚类挖掘及正文簇选择；S4、正文簇内标签经验性调整；S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘，运用层次聚类算法对网页标签进行聚类，提取出正文标签所在的簇，再根据经验对标签簇内的标签进行调整，再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言，具有更好的通用性、高准确率、易用性，不用针对特定网页做任何特殊设定。
申请公布号	CN106339455A	申请公布日期	2017.01.18
申请号	CN201610729817.1	申请日期	2016.08.26
申请人	电子科技大学	发明人	于富财;文友枥;陈西安;袁进;吴轶铭;申洲;汪辉;鲁才
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	成都宏顺专利代理事务所(普通合伙) 51227	代理人	周永宏;王伟
主权项	基于文本标签特征挖掘的网页正文提取方法，其特征在于，包括以下步骤：S1、进行网页标签预处理及Html标签修复；S2、Html标签特征选择及提取；S3、标签特征聚类挖掘及正文簇选择；S4、正文簇内标签经验性调整；S5、正文簇标签文本提取。
地址	611731 四川省成都市高新区（西区）西源大道2006号

您可能感兴趣的专利

一种可延迟的光纤压接治具

一种头戴式可视设备及可视系统

网络中心服务器

一种基于NIOS II平台的信号高速采集装置

METHOD FOR PRODUCING DIAMOND-METAL CARBIDE COMPOUND SINTERED COMPACT

DISTANCE VELOCITY MEASURING DEVICE

FINGER-RING TYPE DEVICE

INTERLAYER FILLING MATERIAL FOR TOUCH PANEL AND LAMINATE

DISPLAY CONTROL DEVICE AND CONTROL METHOD OF THE SAME

DEVICE FOR ESTIMATING AIR FLOW RATE PASSING THROUGH THROTTLE

UNIT ROOM CONSTRUCTION METHOD

BABY CARRIAGE ENABLING 360-DEGREE ROTATION OF SEAT

SYSTEM FOR ELECTRONEUROSTIMULATOR

CRANK ASSEMBLY FOR BICYCLE

MASK FOR ARRANGEMENT

INDUCTION POWER SUPPLY SYSTEM AND INVADING METAL DETECTION METHOD

NOTICE BOARD SYSTEM AND METHOD FOR MOVING MEMO MEDIUM DEVICE

DATA ARCHIVE SYSTEM AND DATA RECORDING METHOD

DISTRIBUTION GEAR FOR VEHICLE