主权项 |
一种基于用户兴趣挖掘的微博词云生成方法,其步骤包括:1)给定当前登录用户所关注用户新发布的一个微博消息集,从所述微博消息集中抽取出一个关键词集;2)分别基于用户关系、基于关键词的相似度计算所述当前登录用户对所述关键词集中各个关键词的兴趣度,并将计算所得的两种兴趣度融合,得到最终兴趣度;计算所述兴趣度的步骤包括:2a)基于用户关系计算当前登录用户u对所述关键词集中任意关键词w的兴趣度,u与对w感兴趣的微博用户越相似,则u对w越有可能具有较高的兴趣度:首先,对于u及其任意关注用户v,将用户基本信息、所关注用户或者发布、评价、转发的微博消息中所包含的关键词作为特征,以特征集合为依据,利用集合之间的相似关系计算u与v之间的相似度s<sub>1</sub>(u,v);其次,根据一个关键词在一个用户过去一段时间内发布、评价、转发的微博消息中所出现的频率计算v对w的兴趣因子p(v,w),该时间段可由所述当前登录用户配置;最后,对于u所关注的全部用户,根据u与这些用户的相似度以及这些用户对w的兴趣因子,计算u对w的兴趣度,其公式如下:<img file="FDA0001066540430000011.GIF" wi="526" he="94" />其中U表示u所关注的全部用户的集合;2b)基于关键词的相似度计算所述当前登录用户u对所述关键词集中任意关键词w的兴趣度,w与u之前感兴趣的关键词越相似,则u对w越有可能具有较高的兴趣度:首先,对于u之前发布、评价、转发的微博消息中所包含的任意关键词w',依据关键词所出现在的微博消息集合之间的相似关系,计算w与w'之间的相似度s<sub>2</sub>(w,w');其次,根据一个关键词在一个用户过去一段时间内发布、评价、转发的全部微博消息中所出现的频率计算u对w'的兴趣因子p(u,w'),该时间段可由所述当前登录用户配置;最后,对于u发布、评价、转发的全部微博消息中所包含的关键词,根据w与这些关键词的相似度以及u对这些关键词的兴趣因子,计算u对w的兴趣度,其公式如下:<img file="FDA0001066540430000012.GIF" wi="605" he="87" />其中W(u)表示u发布、评价、转发的全部微博消息中所包含的关键词的集合;2c)将基于用户关系计算的兴趣度与基于关键词的相似度计算的兴趣度融合,计算u对w的最终兴趣度,其公式如下:f(u,w)=λ·f<sub>r</sub>(u,w)+(1‑λ)·f<sub>s</sub>(u,w),其中0≤λ≤1是权重系数;3)根据兴趣度的值从所述关键词集中选择k个关键词,其中k为事先给定的正整数,并在一个区域内显示所选择出的k个关键词,以将所述k个关键词构成的微博词云可视化地呈现给用户。 |