发明名称 | 社交平台的UGC标签聚类方法和装置 | ||
摘要 | 本发明公开了一种社交平台的UGC标签聚类方法和装置,该方法包括:从UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,一次聚类以及质心的更新过程中:对未聚类的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,将该标签聚类到与之相似度最大的簇中;否则生成一个新的以该标签为质心的簇;统计本次聚类完成后得到的每个簇中的标签的个数,将标签个数小于第一数量阈值的簇解散后,针对剩余的每个簇,对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。应用本发明,可提高聚类准确度以及运算速度。 | ||
申请公布号 | CN103699573A | 申请公布日期 | 2014.04.02 |
申请号 | CN201310626462.X | 申请日期 | 2013.11.28 |
申请人 | 微梦创科网络科技(中国)有限公司 | 发明人 | 昝艳;张俊林 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京市京大律师事务所 11321 | 代理人 | 张璐;方晓明 |
主权项 | 一种社交平台的UGC标签聚类方法,其特征在于,包括:从用户生成内容UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,在一次聚类以及质心的更新过程中:对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。 | ||
地址 | 100080 北京市海淀区彩和坊路6号7-10层 |