发明名称 一种两阶段混合粒子群优化聚类方法
摘要 一种两阶段混合粒子群优化聚类方法,主要解决现有粒子群优化K均值聚类方法当样本维数较高时消耗时间较多,且准确率不高的问题。本发明的技术方案为:(1)读入数据集和聚类个数K;(2)统计维度信息;(3)维度规范化;(4)计算相似度矩阵;(5)生成候选初始聚类中心;(6)粒子群K均值划分聚类;(7)输出粒子种群最优适应度值和对应的数据集类簇划分结果。本发明首先采用凝聚层次聚类进行第一阶段聚类,提出了一种简化的粒子编码方式,通过粒子群优化K均值聚类对数据进行第二阶段聚类,融合了层次凝聚、K均值和粒子群优化方法的优点,加快了聚类速度,提高了方法的全局收敛能力和聚类结果的准确率。
申请公布号 CN102663100A 申请公布日期 2012.09.12
申请号 CN201210109141.8 申请日期 2012.04.13
申请人 西安电子科技大学 发明人 刘志镜;王纵虎;王韦桦;陈东辉;屈鉴铭;贺文骅;王静;姚勇;熊静;唐国良;袁通;刘慧
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 田文英;王品华
主权项 一种两阶段混合粒子群优化聚类方法,包括如下步骤:(1)读入数据集和聚类个数K;(2)统计维度信息计算机遍历数据集所有样本,统计数据集各维的取值范围信息,获得数据集各维属性取值范围的最大值与最小值;(3)维度规范化对数据样本各维属性值采用规范化公式进行处理,将数据集所有样本各维属性值映射到[0,1]区间;(4)计算相似度矩阵对所有样本采用欧式距离公式计算两两之间的相异度值,生成数据集各样本之间的相异度矩阵;(5)生成候选初始聚类中心5a)将所有样本看作一个子簇,加入当前轮子簇列表中,根据步骤(4)中获得的相互之间的相异度降序排序;5b)按照平均相异度公式计算当前轮子簇列表中每个子簇与数据集其他子簇之间的平均相异度值;5c)对排序后的子簇对进行合并,若子簇对之间的相异度同时小于子簇对中两个子簇的平均相异度值,则将这两个子簇进行合并,加入到新一轮子簇列表中,否则将这两个子簇加入新一轮子簇列表中;5d)判断新一轮子簇列表中子簇的数目是否小于等于预定数目,若是,则停止迭代,输出生成的新一轮子簇列表中的子簇作为候选初始聚类中心;否则返回5b)继续进行层次凝聚聚类;(6)粒子群K均值划分聚类6a)采用粒子编码方式对选择的新一轮子簇列表中的子簇中的候选初始聚类中心子簇进行编码;6b)设定粒子种群中粒子的数目及最大迭代次数、整个粒子种群的位置和速度的搜索空间范围,设定每个粒子的初始位置和速度;6c)根据当前粒子编码位置各维的值获得初始聚类中心子簇的序号,采用K均 值划分方法对数据集进行划分聚类,获得数据集的聚类结果;6d)根据适应度值公式,对数据集聚类结果计算粒子的适应度值;6e)判断当前粒子适应度值与该粒子的最优适应度值的大小,若小于则将该粒子最优适应度值用当前粒子适应度值替换,将该粒子最优位置用当前粒子位置替换,否则不变;6f)判断当前粒子适应度值与粒子种群的最优适应度值的大小,若小于则将粒子种群最优适应度值用当前粒子适应度值替换,将粒子种群最优位置用当前粒子位置替换,否则不变;6g)根据粒子速度更新公式更新粒子速度;6h)根据粒子位置更新公式更新粒子位置;6i)判断粒子群优化迭代次数是否到达预设的最大迭代次数,若是,则停止迭代,执行步骤(7);否则,返回6c)继续进行计算;(7)输出粒子种群最优适应度值和对应的数据集类簇划分结果。
地址 710071 陕西省西安市太白南路2号