一种基于WEB文档的自动摘要方法,申请号CN201410642510.9-传众专利搜索

发明名称	一种基于WEB文档的自动摘要方法
摘要	本发明公开了一种基于WEB文档的自动摘要方法，具体包括以下几个步骤：(1)利用Html文档对象模型标签树抓取WEB文档正文信息；(2)对抓取的WEB文档正文信息进行分块、分句；(3)对抓取的WEB文档正文信息，依据关键词库进行分词，分词后去除无意义的非关键词，并将网络新词及专业词语扩充到关键词库，对于网络上已停用的非关键词，扩充到非关键词库；(4)计算分词权值和分句、分块权值；(5)根据摘要精细程度，选择分块、分句的个数，最后从中选出权值最高的几个分块、分句形成文档摘要信息。本发明能够分析WEB文档信息，给用户提供简洁的、信息全面的页面内容的概要，以提高用户获取信息的效率。
申请公布号	CN104361081A	申请公布日期	2015.02.18
申请号	CN201410642510.9	申请日期	2014.11.13
申请人	河海大学	发明人	刘文婷
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	南京纵横知识产权代理有限公司 32224	代理人	董建林;汪庆朋
主权项	一种基于WEB文档的自动摘要方法，其特征在于，具体包括以下几个步骤：(1)利用Html文档对象模型标签树抓取WEB文档正文信息；(2)对抓取的WEB文档正文信息进行分块、分句；(3)对抓取的WEB文档正文信息，依据关键词库进行分词，分词后去除无意义的非关键词，并将网络新词及专业词语扩充到关键词库，对于网络上已停用的非关键词，扩充到非关键词库；(4)计算分词权值和分句、分块权值；(5)根据摘要精细程度，选择分块、分句的个数，最后从中选出权值最高的几个分块、分句形成文档摘要信息。
地址	211100 江苏省南京市江宁区佛城西路8号