发明名称 基于量子粒子群优化改进的模糊C-均值聚类方法
摘要 本发明涉及一种聚类方法,尤其是一种基于量子粒子群优化改进的模糊C-均值聚类方法,属于数据挖掘和人工智能的技术领域。本发明在传统的模糊C-均值聚类算法中,首先利用新距离标准取代Euclidean标准,以提高传统聚类算法下的模糊精确度,同时通过AFCM算法单次快速分类替代随机分配初始聚类中心,来降低聚类算法对初始聚类中心的敏感度,最后在聚类过程中引入基于距离改进的QPSO(AQPSO)并行优化思想使其聚类算法具有较强的全局搜索能力、更高的收敛精度,保证收敛速度也明显改善了聚类效果。
申请公布号 CN102831474A 申请公布日期 2012.12.19
申请号 CN201210277058.1 申请日期 2012.08.06
申请人 江南大学 发明人 毛力;李引
分类号 G06N3/00(2006.01)I 主分类号 G06N3/00(2006.01)I
代理机构 无锡市大为专利商标事务所 32104 代理人 曹祖良
主权项 1.一种基于量子粒子群优化改进的模糊C-均值聚类方法,其特征是,所述模糊C-均值聚类方法包括如下步骤:步骤一、聚类参数设定:给定所需的聚类类别c、粒子群规模N、最大迭代次数MAXTER,当前迭代次数t,收缩扩张系数α;步骤二、种群的初始化:定义距离标准d(x<sub>k</sub>,v<sub>i</sub>)=1-exp(-β||x<sub>k</sub>-v<sub>i</sub>||<sup>2</sup>)                            (1)其中,<maths num="0001"><![CDATA[<math><mrow><mi>&beta;</mi><mo>=</mo><msup><mrow><mo>[</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><mover><mi>x</mi><mo>&OverBar;</mo></mover><mo>|</mo><mo>|</mo><mo>)</mo></mrow><mo>]</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mo>,</mo></mrow></math>]]></maths>且<maths num="0002"><![CDATA[<math><mrow><mover><mi>x</mi><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>x</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>利用单次AFCM算法进行快速分类,结合公式(1)得到目标函数<maths num="0003"><![CDATA[<math><mrow><msub><mi>J</mi><mi>AFCM</mi></msub><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>U</mi><mo>,</mo><mi>V</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>U</mi><mi>ik</mi><mi>m</mi></msubsup><mo>[</mo><mn>1</mn><mo>-</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>&beta;</mi><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><msub><mi>v</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>]</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,X={x<sub>1</sub>,x<sub>2</sub>,…x<sub>k</sub>,…x<sub>n</sub>}是给定的数据集,n为数据集中样本的个数,x<sub>k</sub>(x<sub>k1</sub>,x<sub>k2</sub>,…,x<sub>kd</sub>)表示具有d个属性的数据对象,聚类个数为c,聚类中心集合V={v<sub>1</sub>,v<sub>2</sub>,…,v<sub>c</sub>},其中v<sub>i</sub>(v<sub>i1</sub>,v<sub>i2</sub>,…,v<sub>id</sub>)表示第i个聚类中心,U<sub>ik</sub>表示第k个样本属于第i类的模糊隶属度,对于任意k,i和模糊加权指数m,使公式(2)达到最小值的必要条件为:<maths num="0004"><![CDATA[<math><mrow><msub><mi>U</mi><mi>ik</mi></msub><mo>=</mo><mfrac><mn>1</mn><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></msubsup><mrow><mo>{</mo><mo>[</mo><mn>1</mn><mo>-</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>&beta;</mi><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><msub><mi>v</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>]</mo><mo>/</mo><msup><mrow><mo>[</mo><mn>1</mn><mo>-</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>&beta;</mi><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><msub><mi>v</mi><mi>j</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>]</mo><mo>}</mo></mrow><mrow><mn>1</mn><mo>/</mo><mi>m</mi><mo>-</mo><mn>1</mn></mrow></msup></mrow></mrow></mfrac><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>c</mi><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>k</mi><mo>&le;</mo><mi>n</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>中心向量为:<maths num="0005"><![CDATA[<math><mrow><msub><mi>v</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>U</mi><mi>ik</mi><mi>m</mi></msubsup><mrow><mo>(</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>&beta;</mi><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><msub><mi>v</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow><msub><mi>x</mi><mi>k</mi></msub></mrow><mrow><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>U</mi><mi>ik</mi><mi>m</mi></msubsup><mrow><mo>(</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>&beta;</mi><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>k</mi></msub><mo>-</mo><msub><mi>v</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths>利用公式(4)得到的聚类中心向量作为种群中的一个初始粒子,并重复进行N次,生成初始种群;步骤三、粒子的全局搜索:在一个d维的目标搜索空间中,QPSO算法由N个代表潜在问题解的粒子组成群体X(t)={X<sub>1</sub>(t),X<sub>2</sub>(t),…,X<sub>N</sub>(t)},在t时刻,第i个粒子位置为<img file="FDA00001979308900016.GIF" wi="1882" he="71" />粒子没有速度向量,个体最优位置Pbest表示为p<sub>i</sub>(t)=(p<sub>i1</sub>(t),p<sub>i2</sub>(t),…,p<sub>id</sub>(t)),全局最优位置Gbest表示为G(t)=(G<sub>1</sub>(t),G<sub>2</sub>(t),…,G<sub>j</sub>(t)…,G<sub>d</sub>(t)),且G(t)=p<sub>g</sub>(t),其中g为粒子群体处于全局最优位置的下标,g∈{1,2,…,N};定义所有粒子个体的最优平均位置C(t),即<maths num="0006"><![CDATA[<math><mrow><mi>C</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><msub><mi>C</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>C</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><msub><mi>C</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><msub><mi>C</mi><mi>d</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0007"><![CDATA[<math><mrow><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>p</mi><mrow><mi>i</mi><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>p</mi><mrow><mi>i</mi><mn>2</mn></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>p</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>p</mi><mi>id</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths>粒子的个体最优位置Pbest由下述公式确定为<maths num="0008"><![CDATA[<math><mrow><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><msub><mi>X</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mtd><mtd><mi>f</mi><mo>[</mo><msub><mi>X</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>]</mo><mo>&lt;</mo><mi>f</mi><mo>[</mo><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>]</mo></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mtd><mtd><mi>f</mi><mo>[</mo><msub><mi>X</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>]</mo><mo>&GreaterEqual;</mo><mi>f</mi><mo>[</mo><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>]</mo></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,f[X]=J<sub>AFCM</sub>(X,U,V);整个粒子群的全局最优位置Gbest由下述公式确定为<maths num="0009"><![CDATA[<math><mrow><mi>g</mi><mo>=</mo><mi>arg</mi><munder><mi>Min</mi><mrow><mn>1</mn><mo>&lt;</mo><mi>i</mi><mo>&le;</mo><mi>N</mi></mrow></munder><mo>{</mo><mi>f</mi><mo>[</mo><msub><mi>p</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>]</mo><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow></math>]]></maths>G(t)=P<sub>g</sub>(t)                                                    (9)更新粒子时,首先得到粒子的个体最优位置Pbest及整个粒子群的全局最优位置Gbest,其次利用公式(2)更新所有粒子个体的适应度值,并将每一个粒子的当前个体位置适应度值与全局最优位置的适应度值比较;若每一个粒子的当前个体位置适应度值优于全局最优位置的适应度值,更新公式(9)中的G(t);令<img file="FDA00001979308900025.GIF" wi="1941" he="65" />则粒子的进化方程为:<maths num="0010"><![CDATA[<math><mrow><msub><mi>X</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&PlusMinus;</mo><mi>&alpha;</mi><mo>*</mo><mo>|</mo><msub><mi>C</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>X</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo><mo>*</mo><mi>ln</mi><mrow><mo>(</mo><mfrac><mn>1</mn><mrow><msub><mi>u</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>,</mo><msub><mi>u</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>~</mo><mi>U</mi><mrow><mo>(</mo><mn>0,1</mn><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<img file="FDA00001979308900027.GIF" wi="126" he="55" />u<sub>i,j</sub>(t)为符合正态分布的辅助参数;G<sub>j</sub>(t)表示粒子群体的全局最优位置;步骤四、输出聚类结果:重复上述粒子更新操作,如果当前的迭代次数达到预先设定的最大次数MAXTER,则停止迭代输出最佳聚类效果。
地址 214122 江苏省无锡市蠡湖大道1800号