发明名称 基于用户兴趣挖掘的微博词云生成方法及访问支持系统
摘要 本发明公开一种基于用户兴趣挖掘的微博词云生成方法及微博消息访问支持系统,该方法包括:给定当前登录用户所关注用户新发布的微博消息集,从中抽取出关键词集;分别基于用户关系、基于关键词的相似度计算当前登录用户对该关键词集中关键词的兴趣度,并将两种计算所得的兴趣度融合,计算最终兴趣度;从所述关键词集中选择兴趣度最高的k个关键词;在一个区域内显示所选择出的k个关键词。该系统包括用户信息获取模块、词云生成器等关键模块。本发明能够使用户更加高效地从微博消息中获取其感兴趣的信息。
申请公布号 CN103793481B 申请公布日期 2017.02.15
申请号 CN201410020292.5 申请日期 2014.01.16
申请人 中国科学院软件研究所 发明人 汪美玲;陶秋铭;周翔;李梅;赵琛
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 余长江
主权项 一种基于用户兴趣挖掘的微博词云生成方法,其步骤包括:1)给定当前登录用户所关注用户新发布的一个微博消息集,从所述微博消息集中抽取出一个关键词集;2)分别基于用户关系、基于关键词的相似度计算所述当前登录用户对所述关键词集中各个关键词的兴趣度,并将计算所得的两种兴趣度融合,得到最终兴趣度;计算所述兴趣度的步骤包括:2a)基于用户关系计算当前登录用户u对所述关键词集中任意关键词w的兴趣度,u与对w感兴趣的微博用户越相似,则u对w越有可能具有较高的兴趣度:首先,对于u及其任意关注用户v,将用户基本信息、所关注用户或者发布、评价、转发的微博消息中所包含的关键词作为特征,以特征集合为依据,利用集合之间的相似关系计算u与v之间的相似度s<sub>1</sub>(u,v);其次,根据一个关键词在一个用户过去一段时间内发布、评价、转发的微博消息中所出现的频率计算v对w的兴趣因子p(v,w),该时间段可由所述当前登录用户配置;最后,对于u所关注的全部用户,根据u与这些用户的相似度以及这些用户对w的兴趣因子,计算u对w的兴趣度,其公式如下:<img file="FDA0001066540430000011.GIF" wi="526" he="94" />其中U表示u所关注的全部用户的集合;2b)基于关键词的相似度计算所述当前登录用户u对所述关键词集中任意关键词w的兴趣度,w与u之前感兴趣的关键词越相似,则u对w越有可能具有较高的兴趣度:首先,对于u之前发布、评价、转发的微博消息中所包含的任意关键词w',依据关键词所出现在的微博消息集合之间的相似关系,计算w与w'之间的相似度s<sub>2</sub>(w,w');其次,根据一个关键词在一个用户过去一段时间内发布、评价、转发的全部微博消息中所出现的频率计算u对w'的兴趣因子p(u,w'),该时间段可由所述当前登录用户配置;最后,对于u发布、评价、转发的全部微博消息中所包含的关键词,根据w与这些关键词的相似度以及u对这些关键词的兴趣因子,计算u对w的兴趣度,其公式如下:<img file="FDA0001066540430000012.GIF" wi="605" he="87" />其中W(u)表示u发布、评价、转发的全部微博消息中所包含的关键词的集合;2c)将基于用户关系计算的兴趣度与基于关键词的相似度计算的兴趣度融合,计算u对w的最终兴趣度,其公式如下:f(u,w)=λ·f<sub>r</sub>(u,w)+(1‑λ)·f<sub>s</sub>(u,w),其中0≤λ≤1是权重系数;3)根据兴趣度的值从所述关键词集中选择k个关键词,其中k为事先给定的正整数,并在一个区域内显示所选择出的k个关键词,以将所述k个关键词构成的微博词云可视化地呈现给用户。
地址 100190 北京市海淀区中关村南四街4号