发明名称 社交平台的UGC标签聚类方法和装置
摘要 本发明公开了一种社交平台的UGC标签聚类方法和装置,该方法包括:从UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,一次聚类以及质心的更新过程中:对未聚类的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,将该标签聚类到与之相似度最大的簇中;否则生成一个新的以该标签为质心的簇;统计本次聚类完成后得到的每个簇中的标签的个数,将标签个数小于第一数量阈值的簇解散后,针对剩余的每个簇,对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。应用本发明,可提高聚类准确度以及运算速度。
申请公布号 CN103699573A 申请公布日期 2014.04.02
申请号 CN201310626462.X 申请日期 2013.11.28
申请人 微梦创科网络科技(中国)有限公司 发明人 昝艳;张俊林
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市京大律师事务所 11321 代理人 张璐;方晓明
主权项 一种社交平台的UGC标签聚类方法,其特征在于,包括:从用户生成内容UGC标签中选取k个标签作为质心分别聚类到初始化的k个簇后,进行至少一次聚类以及质心的更新;其中,在一次聚类以及质心的更新过程中:对所述UGC标签中未聚类到簇中的每个标签,计算该标签与各簇的相似度,若计算的相似度大于设定阈值,则将该标签聚类到与之相似度最大的簇中;否则,生成一个新的簇,将该标签作为该新的簇的质心;对于本次聚类完成后所得到的每个簇,统计该簇的标签的个数;将标签的个数小于第一数量阈值的簇进行解散后,对于剩余的每个簇,进行该簇质心的更新:对于该簇中的每个标签,计算出该标签与该簇中的其它标签的相似度的和值;将该簇的质心更新为和值最大的标签。
地址 100080 北京市海淀区彩和坊路6号7-10层