发明名称 | 多信息融合的微博热点话题检测方法 | ||
摘要 | 本发明公开了一种基于多信息融合的微博热点话题检测方法,首先根据微博发布者的社交关系来计算博主的影响力,进而基于博主的影响力信息和特征词频率信息来计算特征词在给定时间段内所有微博中的权值之和;然后根据特征词权值之和随时间变化的信息来检测突发特征词,通过引入Web新闻语料来扩充微博数据以计算突发特征间的关联关系值,进而构建突发特征词关联图;最后对突发特征词关联图进行划分,每个强连通子图表示一个话题,从而实现微博热点话题的检测。本发明综合利用了微博特征词信息、博主社会关系信息、相关Web新闻文档信息来检测微博热点话题,提高了微博热点话题检测的效率。 | ||
申请公布号 | CN103294818A | 申请公布日期 | 2013.09.11 |
申请号 | CN201310231487.X | 申请日期 | 2013.06.12 |
申请人 | 北京航空航天大学 | 发明人 | 张小明;李舟军 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京科迪生专利代理有限责任公司 11251 | 代理人 | 成金玉;贾玉忠 |
主权项 | 多信息融合的微博热点话题检测方法,其特征在于实现步骤如下:A.结合博主影响力的特征词权值计算:对收集到的数据进行过滤及预处理操作,提取微博中的特征词,结合博主的影响力及特征词的频率信息计算特征词在微博中的权值以及给定时间段内的权值之和;B.突发特征词检测:根据步骤A的特征词在不同时间段内权值之和的变化情况检测出当前时间段内的突发特征词;C.话题的检测:利用Web新闻文档数据扩充微博数据包含的特征词关联关系信息,根据步骤B检测出的突发特征词之间的关联关系构建特征词关联图,对突发特征词关联图进行划分,每一个子图表示一个话题,然后得到当前时间段内的热点话题列表。 | ||
地址 | 100191 北京市海淀区学院路37号 |