发明名称 |
一种基于论坛帖子特征的用户兴趣识别方法及装置 |
摘要 |
本发明公开了一种基于论坛帖子特征的用户兴趣识别方法及装置,该方法包括:服务器获取用户操作过的帖子的标题和内容;对每个帖子的标题和内容进行分词以计算分词得到的各词语的词频,将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为帖子的特征词;计算每个特征词与标签库内的标签词的关联系数,并将最大关联系数对应的标签词作为帖子的标签;其中,标签库预先保存多个用于表征帖子特征的标签词;合并相同的标签词,并统计每个标签词的数量;以及计算每个标签词与全部标签词的相关度,并根据数量利用图论算法得到用户的兴趣标签词组。利用本发明,能够在海量帖子中对每个用户的兴趣进行特征识别,并且具有较高的准确率。 |
申请公布号 |
CN104657466A |
申请公布日期 |
2015.05.27 |
申请号 |
CN201510071873.6 |
申请日期 |
2015.02.11 |
申请人 |
厦门美柚信息科技有限公司 |
发明人 |
陈方毅;高家栋;苏利祥 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市威世博知识产权代理事务所(普通合伙) 44280 |
代理人 |
何青瓦 |
主权项 |
一种基于论坛帖子特征的用户兴趣识别方法,其特征在于,所述方法包括:服务器获取用户操作过的帖子的标题和内容;对每个所述帖子的标题和内容进行分词以计算分词得到的各词语的词频,将计算得到的词频按照从大到小的顺序排列后获取前N个词频对应的词语作为所述帖子的特征词,N为大于0的自然数;计算每个所述特征词与标签库内的标签词的关联系数,并将最大关联系数对应的标签词作为所述帖子的标签;其中,所述标签库预先保存多个用于表征帖子特征的标签词;合并相同的所述标签词,并统计每个所述标签词的数量;以及计算每个所述标签词与全部标签词的相关度,并根据所述数量利用图论算法得到所述用户的兴趣标签词组。 |
地址 |
361000 福建省厦门市软件园二期望海路4号103 |