发明名称 | 对网络舆情监控的方法 | ||
摘要 | 本发明公开了一种对网络舆情监控的方法,该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现;网页信息采集与清洗:采用分布式协同爬虫动态获取相关的网页信息;对获取的网页清除噪声数据,萃取出相关数据,导入数据库;网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块;网络舆情分析:选择一段时间样本网页进行一次聚类得到特征向量,使用这些特征向量对更大范围的网页数据进行二次聚类,获得舆情热点走势图表。本发明通过对网络资源的精确采集,实现对网络舆情的有效监测,能够对网络舆情进行有效的信息汇集、分析和预警。 | ||
申请公布号 | CN104794161A | 申请公布日期 | 2015.07.22 |
申请号 | CN201510129837.0 | 申请日期 | 2015.03.24 |
申请人 | 浪潮集团有限公司 | 发明人 | 岳立松;徐宏伟;左少标 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 济南信达专利事务所有限公司 37100 | 代理人 | 姜明 |
主权项 | 对网络舆情监控的方法,其特征在于,该舆情监控的方法通过网页信息采集与清洗、网页信息预处理和网络舆情分析三部分实现;网页信息采集与清洗:采用分布式协同爬虫,动态配置爬虫服务器数量以及爬虫数量,在不同的采集需求下动态增减使用在采集上的计算资源;通过网页采集子系统中的爬虫模块在Internet上获取相关的网页信息;对获取的网页,通过网页清洗模块清除噪声数据,萃取出相关数据,导入数据库;网页信息预处理包含网页文本分词模块、特征提取模块、VSM模型建立模块、网页相似度计算模块;网络舆情分析:选择一段时间样本网页进行一次聚类,形成多个网络舆情热点簇,通过热点簇的分析得到各热点簇的特征向量,使用这些特征向量对更大范围的网页数据进行二次聚类,获得舆情热点走势图表;同时,通过一次聚类和二次聚类的区分,将系统的工作界定为热点发现和热点跟踪。 | ||
地址 | 250101 山东省济南市高新区舜雅路1036号 |