发明名称 网络标签聚类方法和系统
摘要 本发明公开了一种网络标签聚类方法和系统,所述方法包括:根据网络标签向量集中各网络标签向量的模值大小对二维化的网络标签向量进行排序;根据排序结果,选取数目与簇数目相一致的、网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;根据簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。本发明将网络标签向量二维化,从而可以采用优化初始质心和或优化簇数目的技术手段,来提高网络标签向量进行聚类的精度,即提高了网络标签向量对应的网络标签的聚类精度。
申请公布号 CN103218419A 申请公布日期 2013.07.24
申请号 CN201310109375.7 申请日期 2013.03.29
申请人 新浪网技术(中国)有限公司 发明人 陈玉焓
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市京大律师事务所 11321 代理人 黄启行;方晓明
主权项 一种网络标签聚类方法,其特征在于,包括:计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
地址 100080 北京市海淀区北四环西路58号理想国际大厦20层