发明名称 |
一种短文本数据的事件演化分析方法 |
摘要 |
本发明提供一种短文本数据的事件演化分析方法,包括:根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解,得到文档—事件矩阵和事件—词项矩阵;根据事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度,根据该相似度、当前时段的事件和前一时段的剩余图构造当前时段的事件关系图;当前时段的事件关系图分割为一个或多个子图;对子图进行归类得到新生成事件集和演化事件集;根据文档—事件矩阵计算每个事件关联的文档数,并根据该文档数做演化事件集的趋势分析和预测,作为下一时段非负矩阵分解的约束条件。该方法适于动态地跟踪短文本数据的事件演化过程。 |
申请公布号 |
CN103150383B |
申请公布日期 |
2015.07.29 |
申请号 |
CN201310082990.3 |
申请日期 |
2013.03.15 |
申请人 |
中国科学院计算技术研究所 |
发明人 |
程学旗;刘盛华;李福鑫;王元卓;刘悦 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京泛华伟业知识产权代理有限公司 11280 |
代理人 |
王勇 |
主权项 |
一种短文本数据的事件演化分析方法,包括:步骤1)、根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解,得到当前时段的文档—事件矩阵、事件—词项矩阵和事件集合;步骤2)、根据当前时段的事件—词项矩阵和前一时段的事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度,根据该相似度、当前时段的事件集合和前一时段的剩余图构造当前时段的事件关系图,包括:步骤21)、将当前时段的事件集合中的事件作为节点加入前一时段的剩余图;步骤22)、将当前时段的事件集合中的事件与前一时段的事件集合中的事件两两连边,边的方向为由前一事件指向当前事件,边的权值为其连接的事件之间的相似度;步骤23)、去除权值小于预定阈值t_value的边;其中,如果前一时段是第一时段,则前一时段的剩余图是由表示前一时段的事件的节点构成的;否则前一时段的剩余图是从前一时段的事件关系图中去除前一时段的消失事件集和与其相连的边得到的;步骤3)、将当前时段的事件关系图分割为一个或多个子图,最大化每个子图之内的事件相似度,最小化每个子图之间的相似度,将该一个或多个子图分别归类为消失事件集、新生成事件集和演化事件集,其中:当子图内的事件演化终点不在当前时段的事件集合内,则该子图内的事件构成消失事件集;当子图内的事件在当前时段的事件集合内而不在前一时段的事件集合内,则该子图内的事件构成新生成事件集;否则,该子图内的事件构成演化事件集。 |
地址 |
100190 北京市海淀区中关村科学院南路6号 |