发明名称 |
一种聚类数据的方法和装置 |
摘要 |
本发明适用于数据处理技术领域,提供了一种聚类数据的方法和装置,方法包括:从N条样本数据中选取K个数据作为K个类的聚类中心;计算每个聚类中心与0向量的欧几里得距离,并对剩余的每个样本数据,计算非0的维度值与每个聚类中心中与所述非0的维度值对应的维度下的维度值的欧几里得距离,以得出样本数据与聚类中心的距离,并将剩余的样本数据归到最近的聚类中心所在的类;重新计算并更新已经得的各个类下的聚类中心;判断重新计算后的各个类下的聚类中心与计算前的聚类中心是否一致或差值小于预定阈值,若是,则结束聚类。本发明在计算数据到聚类中心的距离时仅需m+1个基本运算操作,在不影响结果的情况下,提高了聚类的速度。 |
申请公布号 |
CN104699707A |
申请公布日期 |
2015.06.10 |
申请号 |
CN201310658676.5 |
申请日期 |
2013.12.06 |
申请人 |
深圳先进技术研究院 |
发明人 |
范成林;罗军 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳中一专利商标事务所 44237 |
代理人 |
张全文 |
主权项 |
一种聚类数据的方法,其特征在于,所述方法包括:从N条样本数据中选取K个数据作为K个类的聚类中心;计算每个聚类中心与0向量的欧几里得距离d<sub>j</sub>,并对剩余的每个样本数据,计算非0的维度值与每个聚类中心中与所述非0的维度值对应的维度下的维度值的欧几里得距离d'<sub>i,j</sub>,以得出样本数据与聚类中心的距离为<img file="FDA0000431830180000011.GIF" wi="506" he="116" />并将剩余的样本数据归到最近的聚类中心所在的类;重新计算并更新已经得的各个类下的聚类中心;判断重新计算后的各个类下的聚类中心与计算前的聚类中心是否一致或差值小于预定阈值,若是,则结束聚类。 |
地址 |
518055 广东省深圳市南山区西丽大学城学苑大道1068号 |