发明名称 |
画像系统的标签词库更新方法 |
摘要 |
本发明涉及画像系统的标签词库更新方法,其包括:获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本;当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统;推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量距离大于第二阈值的标签候选词删除。本发明能够及时对标签词库进行更新,以更好地对用户进行描述。 |
申请公布号 |
CN104268292A |
申请公布日期 |
2015.01.07 |
申请号 |
CN201410572863.6 |
申请日期 |
2014.10.23 |
申请人 |
广州索答信息科技有限公司 |
发明人 |
石忠民;徐亚波;王树辰;何金城 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州市越秀区哲力专利商标事务所(普通合伙) 44288 |
代理人 |
汤喜友 |
主权项 |
画像系统的标签词库更新方法,其特征在于,包括以下步骤:步骤1、获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本;步骤2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统;步骤3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量距离大于第二阈值的标签候选词删除。 |
地址 |
510000 广东省广州市广州高新技术产业开发区科学城科学大道182号C1区第11层1101单元 |