发明名称 基于关键词提取和基尼系数的微博用户分类方法
摘要 基于关键词提取和基尼系数的微博用户分类方法。在本发明中,我们对微博用户发表的内容进行关键词的提取与聚类以得到兴趣领域,由用户在不同兴趣领域的兴趣度,使用洛伦兹曲线和基尼系数对其进行分类。计算用户基尼系数的均值μ和标准差σ,以(μ-2σ)、(μ-σ)、μ、(μ+σ)和(μ+2σ)作为分界值,将微博用户分为六种类型:兴趣极广泛型、兴趣较广泛型、兴趣中庸偏广泛型、兴趣中庸偏狭窄型、兴趣较狭窄型、兴趣极狭窄型。在投放广告时,按照投放广告的大众程度,对基尼系数排名使用控制值进行投放。通过使用控制值,能够避免胡乱投发广告,引起用户反感。本发明对微博用户的分类提供了一种全新的方法,并为微博营销、个性化服务等提供了一种新的参考,具有较强的实用性与实践价值。
申请公布号 CN104142950A 申请公布日期 2014.11.12
申请号 CN201310169655.7 申请日期 2013.05.10
申请人 中国人民大学 发明人 施晓菁;梁循;张海燕
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 每次抓取数据,只选取微博用户在最近1个月发布的微博,每个月都实现一次本发明方法,以此来观察用户兴趣分布的变化情况。
地址 100872 北京市海淀区中关村大街59号