发明名称 微博话题检测方法及系统
摘要 本发明涉及话题检测技术领域,公开了一种微博话题检测方法及系统,该方法包括步骤:S1,将微博文本切分为词汇;S2,构造微博文本线索和微博文本森林;S3,针对特定的微博文本线索,进行微博话题分析,以找出微博文本线索中的主话题和噪音话题;S4,针对每个微博文本线索,合并其主话题中的微博文本,从而为每个微博文本线索生成一个微博线索文本;S5,进行全局微博话题分析,从而检测到全局微博话题,形成微博话题库。本发明还可以快速、准确地实现微博话题检测,从而提高微博搜索命中率,缩短用户的微博搜索时间,提升用户体验。
申请公布号 CN102194012B 申请公布日期 2012.11.14
申请号 CN201110164560.7 申请日期 2011.06.17
申请人 清华大学 发明人 夏云庆
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 1.一种微博话题检测方法,其特征在于,所述方法包括以下步骤:S1,将微博文本切分为词汇;S2,利用切分后的微博文本中的信息,构造微博文本线索和微博文本森林,所述信息包括首帖、跟帖类型和回复关系信息,所述微博文本森林由微博文本线索组成;S3,针对特定的微博文本线索,进行微博话题分析,以找出微博文本线索中的主话题和噪音话题,其中,包含一定阈值以上的微博文本的话题称为主话题,其余话题称为噪音话题;S4,针对每个微博文本线索,合并其主话题中的微博文本,从而为每个微博文本线索生成一个微博线索文本;S5,针对步骤S4生成的微博线索文本所组成的微博线索文本集,进行全局微博话题分析,从而检测到全局微博话题,所述全局微博话题形成微博话题库;步骤S3具体包括:S31、建立融合作者和时间信息的话题模型<img file="FDA0000158087630000011.GIF" wi="60" he="48" />该话题模型的概率分布如下:给定时间-作者-话题分布概率P(t,a,w,z)=ρ(z),给定时间-作者-话题分派概率P(t,a,w|z)=σ(w);其中,时间-作者-话题分布概率是指给定发布时间信息和作者信息分布于不同话题中的概率,时间-作者-话题分派概率是指给定话题分布后,发布时间信息和作者信息出现的概率;z代表话题,w代表词汇,a代表作者,取值范围为{1,0},1表示作者相同,0表示作者不同;t代表时间,取值范围为{1,0},1表示时间间隔在预定时间段范围内,0表示时间间隔超越了一个时间段;S32、对给定微博文本线索中的微博文本d,结合所述话题模型<img file="FDA0000158087630000012.GIF" wi="60" he="48" />判定其话题分布θ(d);步骤S32具体为:采用LDA算法进行特征选择,然后以VSM向量表示微博文本,以K-means聚类算法对向量所表示的微博文本进行聚类,得到若干个类簇,取最大的类簇为主话题,而其余类簇为噪音话题;然后得到微博文本线索的主话题下的所有帖子和噪音话题下的所有帖子,即得到了每个帖子的话题分布。
地址 100084 北京市海淀区清华园北京100084-82信箱