发明名称 |
一种微博突发话题检测方法及装置 |
摘要 |
本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。 |
申请公布号 |
CN106294333A |
申请公布日期 |
2017.01.04 |
申请号 |
CN201510236634.1 |
申请日期 |
2015.05.11 |
申请人 |
国家计算机网络与信息安全管理中心 |
发明人 |
贺敏;王丽宏;周勇林;云晓春;程学旗;包秀国;马宏远;丁丽;刘玮;刘悦;赵立永;杨建武 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
工业和信息化部电子专利中心 11010 |
代理人 |
梁军 |
主权项 |
一种微博突发话题检测方法,其特征在于,包括:提取指定的微博数据集合中的特征项,所述特征项为包含具体语义的语言单元;确定所述特征项在所述微博数据集合的文本中的流通度以及所述特征项当前的热度;以所述流通度为质量参数项,以所述热度为位置参数项对所述特征项进行动力学建模,得到所述特征项的当前能量和加速度;在得到的所述能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算所述突发特征项之间的互信息;当所述互信息大于第三阈值时,对所述突发特征项进行合并,得到突发话题。 |
地址 |
100029 北京市朝阳区裕民路甲3号 |