发明名称 |
微博环境下自适应话题追踪方法和装置 |
摘要 |
本发明提出了一种微博环境下自适应话题追踪方法和一种微博环境下自适应话题追踪装置,其中,微博环境下自适应话题追踪方法包括:预设训练集合;获取话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于训练集合的特征集合;根据特征集合训练生成话题追踪模型;使用话题追踪模型对话题相关的微博进行追踪并生成所述话题的子话题。本发明的技术方案,对相关微博进行追踪并将检测到的相关微博划分到不同的子话题,以及检测新子话题的生成,因此不仅能够提高微博话题追踪的准确率,其所检测到的带有时间戳的子话题还能反应出事件的发展情况。 |
申请公布号 |
CN103984731A |
申请公布日期 |
2014.08.13 |
申请号 |
CN201410211436.5 |
申请日期 |
2014.05.19 |
申请人 |
北京大学;北大方正集团有限公司;北京北大方正电子有限公司 |
发明人 |
洪毅虹;费跃;杨建武 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京友联知识产权代理事务所(普通合伙) 11343 |
代理人 |
尚志峰;汪海屏 |
主权项 |
一种微博环境下自适应话题追踪方法,其特征在于,包括:预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博,所述背景语料为在所述话题发生的时间戳之前发布的微博;获取所述话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于所述训练集合的特征集合;根据所述特征集合训练生成话题追踪模型;使用所述话题追踪模型对所述话题相关的微博进行追踪并生成所述话题的子话题。 |
地址 |
100871 北京市海淀区颐和园路5号 |