发明名称 一种互联网舆情话题的动态识别和追踪方法
摘要 本发明涉及一种互联网舆情话题的动态识别和追踪方法,包括以下步骤:1、将舆情话题抽象为节点,节点之间以连接弧表示舆情话题之间存在关联,连接弧的权值表示舆情话题的相关度;2、按照舆情话题发布的时间将其划归到相应的时间片中,构建由话题信息层、网页信息层和网民信息层组成的互联网舆情话题动态演化模型;3、对与舆情话题相关的新入网页进行特征抽取,获得特征项,将网页转化为特征项形成的多元向量空间,计算其与原舆情话题之间的话题相关度;4、采用增量式聚类,依次处理所述新入网页,识别新话题,并将追踪到的舆情新话题扩充更新到模型中。该方法有利于克服话题演化中的话题漂移和衍生问题,提高网络舆情话题追踪效果。
申请公布号 CN104298765A 申请公布日期 2015.01.21
申请号 CN201410574419.8 申请日期 2014.10.24
申请人 福州大学 发明人 陈海汉
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 一种互联网舆情话题的动态识别和追踪方法,其特征在于,包括以下步骤:步骤1:将舆情话题抽象为节点,节点之间以连接弧表示舆情话题之间存在关联,连接弧的权值表示舆情话题的相关度;步骤2:将时间轴划分为一定长度的时间片,按照舆情话题发布的时间将其划归到相应的时间片中,构建由话题信息层、网页信息层和网民信息层组成的互联网舆情话题动态演化模型;步骤3:对与舆情话题相关的新入网页进行特征抽取,获得特征项,用权重高于平均值的特征项对网页进行描述,将网页转化为特征项形成的多元向量空间,计算其与原舆情话题之间的话题相关度;步骤4:采用增量式聚类识别新话题,依次处理所述新入网页,识别新话题,即如果话题相关度<i>R</i>大于设定阈值<i>θ</i>,则认为是对已有话题的重复报道,舍弃该话题,反之则认为网页中出现了新话题,并将追踪到的舆情新话题扩充更新到互联网舆情话题动态演化模型中。
地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区