对网络舆情监控的方法,申请号CN201510129837.0-传众专利搜索

发明名称	对网络舆情监控的方法
摘要	本发明公开了一种对网络舆情监控的方法，该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现；网页信息采集与清洗：采用分布式协同爬虫动态获取相关的网页信息；对获取的网页清除噪声数据，萃取出相关数据，导入数据库；网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块；网络舆情分析：选择一段时间样本网页进行一次聚类得到特征向量，使用这些特征向量对更大范围的网页数据进行二次聚类，获得舆情热点走势图表。本发明通过对网络资源的精确采集，实现对网络舆情的有效监测，能够对网络舆情进行有效的信息汇集、分析和预警。
申请公布号	CN104794161A	申请公布日期	2015.07.22
申请号	CN201510129837.0	申请日期	2015.03.24
申请人	浪潮集团有限公司	发明人	岳立松;徐宏伟;左少标
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	济南信达专利事务所有限公司 37100	代理人	姜明
主权项	对网络舆情监控的方法，其特征在于，该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现；网页信息采集与清洗：采用分布式协同爬虫，动态配置爬虫服务器数量以及爬虫数量，在不同的采集需求下动态增减使用在采集上的计算资源；通过网页采集子系统中的爬虫模块在Internet上获取相关的网页信息；对获取的网页，通过网页清洗模块清除噪声数据，萃取出相关数据，导入数据库；网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块；网络舆情分析：选择一段时间样本网页进行一次聚类，形成多个网络舆情热点簇，通过热点簇的分析得到各热点簇的特征向量，使用这些特征向量对更大范围的网页数据进行二次聚类，获得舆情热点走势图表；同时，通过一次聚类和二次聚类的区分，将系统的工作界定为热点发现和热点跟踪。
地址	250101 山东省济南市高新区舜雅路1036号