发明名称 对网络舆情监控的方法
摘要 本发明公开了一种对网络舆情监控的方法,该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现;网页信息采集与清洗:采用分布式协同爬虫动态获取相关的网页信息;对获取的网页清除噪声数据,萃取出相关数据,导入数据库;网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块;网络舆情分析:选择一段时间样本网页进行一次聚类得到特征向量,使用这些特征向量对更大范围的网页数据进行二次聚类,获得舆情热点走势图表。本发明通过对网络资源的精确采集,实现对网络舆情的有效监测,能够对网络舆情进行有效的信息汇集、分析和预警。
申请公布号 CN104794161A 申请公布日期 2015.07.22
申请号 CN201510129837.0 申请日期 2015.03.24
申请人 浪潮集团有限公司 发明人 岳立松;徐宏伟;左少标
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南信达专利事务所有限公司 37100 代理人 姜明
主权项 对网络舆情监控的方法,其特征在于,该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现;网页信息采集与清洗:采用分布式协同爬虫,动态配置爬虫服务器数量以及爬虫数量,在不同的采集需求下动态增减使用在采集上的计算资源;通过网页采集子系统中的爬虫模块在Internet上获取相关的网页信息;对获取的网页,通过网页清洗模块清除噪声数据,萃取出相关数据,导入数据库;网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块;网络舆情分析:选择一段时间样本网页进行一次聚类,形成多个网络舆情热点簇,通过热点簇的分析得到各热点簇的特征向量,使用这些特征向量对更大范围的网页数据进行二次聚类,获得舆情热点走势图表;同时,通过一次聚类和二次聚类的区分,将系统的工作界定为热点发现和热点跟踪。
地址 250101 山东省济南市高新区舜雅路1036号