发明名称 一种特征加权的模糊紧致散布聚类方法
摘要 针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况,FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对聚类影响的问题,本发明公开了一种特征加权的模糊紧致散布聚类方法。本发明通过对样本隶属度、特征权重进行调整,遵循了样本硬划分的实际情况,并充分考虑样本特征参数对样本划分的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,对于噪声数据和异常数据实现了更有效的划分。聚类性能良好,收敛速度快、迭代效率高。实验证明,本算法聚类性能良好,收敛速度快、迭代效率高。与现有方法相比,本发明聚类准确率高,耗时明显减少,适于应用在工业控制中实时性要求高的场合。
申请公布号 CN104008197A 申请公布日期 2014.08.27
申请号 CN201410265975.7 申请日期 2014.06.13
申请人 南京信息工程大学 发明人 周媛;何军;夏景明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京众联专利代理有限公司 32206 代理人 顾进;叶涓涓
主权项 一种特征加权的模糊紧致散布聚类方法,其特征在于,包括如下步骤:步骤一:设置隶属度指数m、特征加权指数α∈[‑10,‑1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心a<sub>i</sub>,<img file="FDA0000520563540000011.GIF" wi="156" he="127" />(c为类别数);步骤二:根据下式计算系数η<sub>i</sub>:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>&eta;</mi><mi>i</mi></msub><mo>=</mo><mfrac><mi>&beta;</mi><mn>4</mn></mfrac><mfrac><mrow><msub><mi>min</mi><msup><mrow><mi>i</mi><mo>&NotEqual;</mo><mi>i</mi></mrow><mo>&prime;</mo></msup></msub><mo>|</mo><mo>|</mo><msub><mi>a</mi><mi>i</mi></msub><mo>-</mo><msub><mi>a</mi><msup><mi>i</mi><mo>&prime;</mo></msup></msub><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub></mrow><mrow><msub><mi>max</mi><mi>t</mi></msub><mo>|</mo><mo>|</mo><msub><mi>a</mi><mi>t</mi></msub><mo>-</mo><mover><mi>X</mi><mo>&OverBar;</mo></mover><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup></mrow></mfrac></mrow>]]></math><img file="FDA0000520563540000012.GIF" wi="508" he="156" /></maths>其中,<img file="FDA0000520563540000013.GIF" wi="62" he="72" />为样本均值;步骤三:根据下式更新样本隶属度μ<sub>ij</sub>:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>&mu;</mi><mi>ij</mi></msub><mo>=</mo><mfrac><msup><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>s</mi></munderover><msubsup><mi>&omega;</mi><mi>k</mi><mi>&alpha;</mi></msubsup><mrow><mo>(</mo><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>ij</mi></msub><mo>-</mo><msub><mi>a</mi><mi>ik</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>-</mo><msub><mi>&eta;</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo><msub><mi>a</mi><mi>ik</mi></msub><mo>-</mo><mover><msub><mi>X</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow><mfrac><mn>1</mn><mrow><mn>1</mn><mo>-</mo><mi>m</mi></mrow></mfrac></msup><mrow><munderover><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><msup><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>s</mi></munderover><msubsup><mi>&omega;</mi><mi>k</mi><mi>&alpha;</mi></msubsup><mrow><mo>(</mo><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>jk</mi></msub><mo>-</mo><msub><mi>a</mi><mi>tk</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>-</mo><msub><mi>&eta;</mi><mi>t</mi></msub><mo>|</mo><mo>|</mo><msub><mi>a</mi><mi>tk</mi></msub><mo>-</mo><mover><msub><mi>X</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow><mfrac><mn>1</mn><mrow><mn>1</mn><mo>-</mo><mi>m</mi></mrow></mfrac></msup></mrow></mfrac></mrow>]]></math><img file="FDA0000520563540000014.GIF" wi="1009" he="358" /></maths>记<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>&Delta;</mi><mi>ij</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>s</mi></munderover><msubsup><mi>&omega;</mi><mi>k</mi><mi>&alpha;</mi></msubsup><mrow><mo>(</mo><mo>|</mo><msub><mrow><mo>|</mo><mi>x</mi></mrow><mi>ij</mi></msub><mo>-</mo><msub><mi>a</mi><mi>ik</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>-</mo><msub><mi>&eta;</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo><msub><mi>a</mi><mi>ik</mi></msub><mo>-</mo><mover><msub><mi>X</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000520563540000015.GIF" wi="826" he="133" /></maths>当样本点x<sub>j</sub>存在落在硬划分边界上时,此时Δ<sub>ij</sub>=0,在保证各样本点相对于第i类的距离尺度不变的前提下,对Δ<sub>ij</sub>≥0的根据下式进行调整:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>&Delta;</mi><mi>ij</mi></msub><mo>=</mo><msub><mi>&Delta;</mi><mi>ij</mi></msub><mo>+</mo><mi>rand</mi><mo>*</mo><munder><mi>min</mi><mi>j</mi></munder><mrow><mo>(</mo><msub><mi>&Delta;</mi><mi>ij</mi></msub><mo>></mo><mn>0</mn><mo>)</mo></mrow><mrow><mo>(</mo><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>n</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000520563540000016.GIF" wi="918" he="98" /></maths>调整后利用下式计算新的μ<sub>ij</sub>:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>&mu;</mi><mi>ij</mi></msub><mfrac><msup><msub><mi>&Delta;</mi><mi>ij</mi></msub><mfrac><mn>1</mn><mrow><mn>1</mn><mo>-</mo><mi>m</mi></mrow></mfrac></msup><mrow><munderover><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><msup><msub><mi>&Delta;</mi><mi>tj</mi></msub><mfrac><mn>1</mn><mrow><mn>1</mn><mo>-</mo><mi>m</mi></mrow></mfrac></msup></mrow></mfrac></mrow>]]></math><img file="FDA0000520563540000017.GIF" wi="307" he="256" /></maths>因为有样本点x<sub>j</sub>落在第i类硬划分区域内,所以会有μ<sub>ij</sub><0,因此对μ<sub>ij</sub>进行硬划分调整:<maths num="0006" id="cmaths0006"><math><![CDATA[<mfenced open='{' close=''><mtable><mtr><mtd><msub><mi>&mu;</mi><mi>ij</mi></msub><mo>=</mo><mn>1</mn><mo>,</mo></mtd><mtd><msub><mi>&Delta;</mi><mi>ij</mi></msub><mo>&lt;</mo><mn>0</mn></mtd></mtr><mtr><mtd><msub><mi>&mu;</mi><mrow><msup><mi>i</mi><mo>&prime;</mo></msup><mi>j</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>,</mo></mtd><mtd><msup><mi>i</mi><mo>&prime;</mo></msup><mo>&NotEqual;</mo><mi>i</mi></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000520563540000018.GIF" wi="382" he="165" /></maths>步骤四:根据下式计算特征权重ω<sub>k</sub>:<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msub><mi>&omega;</mi><mi>k</mi></msub><mo>=</mo><mfrac><msup><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>&mu;</mi><mi>ij</mi><mi>m</mi></msubsup><mrow><mo>(</mo><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>ij</mi></msub><mo>-</mo><msub><mi>a</mi><mi>ij</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>-</mo><msub><mi>&eta;</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo><msub><mi>a</mi><mi>ik</mi></msub><mo>-</mo><mover><msub><mi>X</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow><mfrac><mn>1</mn><mrow><mn>1</mn><mo>-</mo><mi>&alpha;</mi></mrow></mfrac></msup><mrow><munderover><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>s</mi></munderover><msup><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>&mu;</mi><mi>ij</mi><mi>m</mi></msubsup><mrow><mo>(</mo><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>jt</mi></msub><mo>-</mo><msub><mi>a</mi><mi>it</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>-</mo><msub><mi>&eta;</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo><msub><mi>a</mi><mi>it</mi></msub><mo>-</mo><mover><msub><mi>X</mi><mi>t</mi></msub><mo>&OverBar;</mo></mover><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow><mfrac><mn>1</mn><mrow><mn>1</mn><mo>-</mo><mi>&alpha;</mi></mrow></mfrac></msup></mrow></mfrac></mrow>]]></math><img file="FDA0000520563540000021.GIF" wi="941" he="358" /></maths>记<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><msub><mi>&Delta;</mi><mi>k</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>&mu;</mi><mi>ij</mi><mi>m</mi></msubsup><mrow><mo>(</mo><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>jk</mi></msub><mo>-</mo><msub><mi>a</mi><mi>ik</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>-</mo><msub><mi>&eta;</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo><msub><mi>a</mi><mi>ik</mi></msub><mo>-</mo><mover><msub><mi>X</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000520563540000022.GIF" wi="902" he="144" /></maths>若Δ<sub>k</sub><0,因为ω<sub>k</sub>∈[0,1],所以需将Δ<sub>k</sub>投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整Δ<sub>k</sub>:<maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><msub><mi>&Delta;</mi><mi>k</mi></msub><mo>=</mo><msub><mi>&Delta;</mi><mi>k</mi></msub><mo>-</mo><munder><mi>min</mi><mi>k</mi></munder><mrow><mo>(</mo><msub><mi>&Delta;</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>+</mo><munder><mi>min</mi><mi>k</mi></munder><mrow><mo>(</mo><msub><mi>&Delta;</mi><mi>k</mi></msub><mo>></mo><mn>0</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000520563540000023.GIF" wi="693" he="98" /></maths>调整后利用特征权重公式计算新的ω<sub>k</sub>;步骤五:根据下式计算聚类中心a<sub>i</sub>:<maths num="0010" id="cmaths0010"><math><![CDATA[<mrow><msub><mi>a</mi><mi>ik</mi></msub><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>&mu;</mi><mi>ij</mi><mi>m</mi></msubsup><mrow><mo>(</mo><msub><mi>x</mi><mi>ij</mi></msub><mo>-</mo><msub><mi>&eta;</mi><mi>i</mi></msub><mover><msub><mi>X</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>&mu;</mi><mi>ij</mi><mi>m</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>&eta;</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000520563540000024.GIF" wi="503" he="282" /></maths>步骤六:令迭代次数p=p+1,直到max<sub>i</sub>|a<sub>i</sub>'‑a<sub>i</sub>|<ε;否则转到步骤二;步骤七:将第t次迭代得到的μ<sub>ij</sub>输出,根据<img file="FDA0000520563540000028.GIF" wi="207" he="74" />即第j个样本属于第i类。
地址 210044 江苏省南京市宁六路219号