发明名称 网络热点和舆情的检测方法
摘要 本发明提供了网络信息处理技术领域的一种网络热点和舆情的检测方法,通过搜集指定时间范围内的网络论坛、博客系统的正文信息文档和评论信息文档,并进行分词、概念映射、概念消歧,再提取出能够表达正文信息文档内容的本征特征,利用这些本征特征进行聚类,形成若干个包含不等数量的信息文档的信息文档集,根据各信息文档集中信息文档的数目可以知道指定时间范围内网络上讨论的热点事件,再对热点事件信息文档集进行褒贬倾向分析,从而获知网民对该热点事件的舆情观点。本发明消除了以往舆情系统以词为单位、不够灵活的不足,同时增强了对评论文本进行舆情分析的能力。
申请公布号 CN101661513A 申请公布日期 2010.03.03
申请号 CN200910308542.4 申请日期 2009.10.21
申请人 上海交通大学 发明人 李生红;张月国;陈铭;梁昆
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海交达专利事务所 代理人 王锡麟;王桂忠
主权项 1.一种网络热点和舆情的检测方法,其特征在于,包括如下步骤:第一步,从网络论坛和博客中抓取指定时间范围内的网页,将其信息文档及相应的评论文档保存到数据库中;第二步,对数据库中的文档进行概念映射和概念消歧处理,使得每个词语映射成唯一的概念;第三步,对每篇信息文档基于概念网提取本征特征,并利用提取出的本征特征对这些信息文档进行聚类,形成多个信息文档集,取包含信息文档数量最多的前若干个信息文档集作为热点事件信息文档集;第四步,建立网络用语库,对每个热点事件信息文档集中所有信息文档的相应评论文档进行褒贬倾向分析,综合每个热点事件信息文档集内所有评论的褒贬倾向,得到该热点事件信息文档集所代表的事件的网络舆情倾向。
地址 200240上海市闵行区东川路800号