发明名称 一种基于多向主元分析法的多阶段批次过程阶段划分方法
摘要 本发明涉及一种基于多向主元分析法的多阶段批次过程阶段划分方法,包括模型数据采集、三维数据展开、二维矩阵标准化、PCA分解、主元个数选取、负载矩阵分解和K-means聚类分析来实现,本发明首次将多向主元分析法模型的负载矩阵按照时间片顺序经过分解变形来辨识过程阶段,打破了传统理论中多向主元分析法不适用于多阶段批次过程建模的认识误区,该方法不仅提取了各个时间片上变量的交叉相关性,同时还提取了测量变量在整个批次各个采样时刻的自身的动态变化特性来辨识阶段,提高了过程监测过程的监测效率和故障诊断结果的准确性,为无过程先验知识条件下的多阶段过程阶段划分提供了新的可能性。
申请公布号 CN102431136A 申请公布日期 2012.05.02
申请号 CN201110275004.7 申请日期 2011.09.16
申请人 广州市香港科大霍英东研究院 发明人 董伟威;高福荣;姚科
分类号 B29C45/76(2006.01)I 主分类号 B29C45/76(2006.01)I
代理机构 广州新诺专利商标事务所有限公司 44100 代理人 罗毅萍
主权项 1.一种基于多向主元分析法的多阶段批次过程阶段划分方法,其特征在于,包括以下步骤得到:1)模型数据采集设一个间歇操作具有J个测量变量和K个采样点,则每一个测量批次可得到一个J×K的矩阵,重复I批次的测量步骤后,得到的数据可以表述为一个三维矩阵<u>X</u>(I×J×K),其中测量变量为温度、速度、压力、行程等批次运行过程中可被测量的状态参数;2)三维数据展开将三维矩阵<u>X</u>按照采集批次方向展开,即将一个操作批次内的各采样点上的变量按照时间顺序排开得到二维矩阵<img file="FDA0000091757900000011.GIF" wi="66" he="59" />3)二维矩阵标准化设二维矩阵<img file="FDA0000091757900000012.GIF" wi="41" he="45" />内任意一点的变量为<img file="FDA0000091757900000013.GIF" wi="80" he="55" />对该变量进行减均值、除以方差的标准化处理,标准化处理的计算公式如下:<maths num="0001"><![CDATA[<math><mrow><msub><mi>x</mi><mi>ijk</mi></msub><mo>=</mo><mfrac><mrow><msub><munder><mi>x</mi><mo>~</mo></munder><mi>ijk</mi></msub><mo>-</mo><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mi>jk</mi></msub></mrow><msub><mi>s</mi><mi>jk</mi></msub></mfrac><mo>;</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中:<img file="FDA0000091757900000015.GIF" wi="52" he="53" />是<img file="FDA0000091757900000016.GIF" wi="41" he="45" />矩阵任一列的均值,s<sub>jk</sub>是<img file="FDA0000091757900000017.GIF" wi="54" he="68" />矩阵任一列的方差,<maths num="0002"><![CDATA[<math><mrow><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mi>jk</mi></msub><mo>=</mo><mfrac><mn>1</mn><mi>I</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>I</mi></munderover><msub><munder><mi>x</mi><mo>~</mo></munder><mi>ijk</mi></msub><mo>,</mo></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><msub><mi>s</mi><mi>jk</mi></msub><mo>=</mo><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>I</mi></munderover><msup><mrow><mo>(</mo><msub><munder><mi>x</mi><mo>~</mo></munder><mi>ijk</mi></msub><mo>-</mo><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mi>jk</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>/</mo><mrow><mo>(</mo><mi>I</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></msqrt><mo>;</mo></mrow></math>]]></maths>4)多向主元分析法建模对上一步经标准化后的二维矩阵(I×JK)执行PCA分解,完成多向主元分析法的建模,其中PCA分解公式如下:<maths num="0004"><![CDATA[<math><mrow><mi>X</mi><mo>=</mo><msup><mi>TP</mi><mi>T</mi></msup><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>JK</mi></munderover><msub><mi>t</mi><mi>i</mi></msub><msub><mi>p</mi><mi>i</mi></msub><mo>;</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>S=trace(T<sup>T</sup>T/(I-1));                 (3)其中:t<sub>i</sub>为正交的主元向量,p<sub>i</sub>为正交归一化的负载向量,S是主元的协方差矩阵的迹,代表各个主元对于过程的解释度大小;公式(2)X分解得到得分矩阵T(I×JK)及负载矩阵P(JK×JK);5)选取主元个数将公式(2)重新表述成如下形式:<maths num="0005"><![CDATA[<math><mrow><mi>X</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><msub><mi>t</mi><mi>r</mi></msub><msub><mi>p</mi><mi>r</mi></msub><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mi>R</mi><mo>+</mo><mn>1</mn></mrow><mi>JK</mi></munderover><msub><mi>t</mi><mi>i</mi></msub><msub><mi>p</mi><mi>i</mi></msub><mo>=</mo><msub><mi>T</mi><mi>r</mi></msub><msub><mi>P</mi><mi>r</mi></msub><mo>+</mo><mi>E</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中:T<sub>r</sub>(I×R)、P<sub>r</sub>(JK×R)分别为保留R个主元后的得分矩阵和负载矩阵,E为残差矩阵;通过上述变换,多向主元分析法模型将原始数据空间分解为主元空间和残差空间,主元空间变量高度相关,一般来说足以描述数据的变异性;主元个数R一般可根据用户的经验设定或者采用Broken-Stick准则,Broken-Stick的内容是当第r个主元的解释度S(r)占所有主元总贡献sum(S)的百分比大于G(r)的时候保留该主元,否则终止,其中G(r)的计算公式如下:<maths num="0006"><![CDATA[<math><mrow><mi>G</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>=</mo><mn>100</mn><mfrac><mn>1</mn><mi>z</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mi>r</mi></mrow><mi>z</mi></munderover><mfrac><mn>1</mn><mi>i</mi></mfrac><mo>;</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中:S(r)是第r个主元的解释度,sum(S)是所有主元的贡献和;6)负载矩阵分解按照步骤(1)的方式将包含了JK个变量的相关性的三维负载矩阵P<sub>r</sub>(JK×R)按照时间片批次展开,由于负载矩阵P<sub>r</sub>(JK×R)每J行是一个时间片负载矩阵<img file="FDA0000091757900000023.GIF" wi="328" he="76" />则将负载矩阵P<sub>r</sub>按照时间次序叠加起来即可得到三维矩阵<img file="FDA0000091757900000024.GIF" wi="58" he="62" />将<img file="FDA0000091757900000025.GIF" wi="34" he="48" />沿时间K方向分解可构成二维矩阵<img file="FDA0000091757900000026.GIF" wi="262" he="78" />其代表每个采样点各个变量之间的相关关系,为方便说明,将<img file="FDA0000091757900000027.GIF" wi="58" he="63" />称作相关模式,则<img file="FDA0000091757900000028.GIF" wi="34" he="48" />可以表述成K个相关模式组合的结构形式:<maths num="0007"><![CDATA[<math><mrow><mover><mi>P</mi><mo>^</mo></mover><mo>=</mo><mo>{</mo><msubsup><mover><mi>P</mi><mo>^</mo></mover><mn>1</mn><mi>K</mi></msubsup><mo>,</mo><msubsup><mover><mi>P</mi><mo>^</mo></mover><mn>2</mn><mi>K</mi></msubsup><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><msubsup><mover><mi>P</mi><mo>^</mo></mover><mi>k</mi><mi>K</mi></msubsup><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><msubsup><mover><mi>P</mi><mo>^</mo></mover><mi>K</mi><mi>K</mi></msubsup><mo>}</mo><mo>;</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths>7)K-means聚类分析本步骤选用下面定义的距离作为度量两个相关模式相似性程度的指标,对K个相关模式<img file="FDA00000917579000000210.GIF" wi="210" he="67" />进行K-means聚类分析,使得具有相同阶段特性的相关模式划分为一类,不同的类别代表不同的阶段特性,上述距离由下式定义:<maths num="0008"><![CDATA[<math><mrow><mi>dist</mi><mrow><mo>(</mo><msubsup><mover><mi>p</mi><mo>^</mo></mover><mn>1</mn><mi>K</mi></msubsup><mo>,</mo><msubsup><mover><mi>p</mi><mo>^</mo></mover><mn>2</mn><mi>K</mi></msubsup><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></munderover><msup><mrow><mo>(</mo><msubsup><mover><mi>p</mi><mo>^</mo></mover><mrow><mn>1</mn><mo>,</mo><mi>j</mi></mrow><mi>K</mi></msubsup><mo>,</mo><mo>-</mo><msubsup><mover><mi>p</mi><mo>^</mo></mover><mrow><mn>2</mn><mo>,</mo><mi>j</mi></mrow><mi>K</mi></msubsup><mo>)</mo></mrow><mi>T</mi></msup><mrow><mo>(</mo><msubsup><mover><mi>p</mi><mo>^</mo></mover><mrow><mn>1</mn><mo>,</mo><mi>j</mi></mrow><mi>K</mi></msubsup><mo>-</mo><msubsup><mover><mi>p</mi><mo>^</mo></mover><mrow><mn>2</mn><mo>,</mo><mi>j</mi></mrow><mi>K</mi></msubsup><mo>)</mo></mrow><mo>)</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup><mo>;</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>K-means算法的输入是K个相关模式集合<img file="FDA0000091757900000032.GIF" wi="470" he="94" />以及两个子类中心的最小距离阈值θ,算法的输出是子类数量C,子类中心设为{W<sub>1</sub>,W<sub>2</sub>,…,W<sub>C</sub>},以及每个相关模式属于不同子类的隶属关系<img file="FDA0000091757900000033.GIF" wi="500" he="63" />变量i是算法中迭代次数的索引,k是分类模式的索引,而c则是聚类中心的索引,算法步骤如下:a、从K个相关模式中,任意选择C<sub>0</sub>个相关模式作为初始聚类中心W<sub>i,c</sub>(c=1,2,…,C<sub>0</sub>),对于W<sub>i,c</sub>的选取,常用方法是从被分类模式中均匀抽取C<sub>0</sub>个相关模式,建议C<sub>0</sub>在区间(K/3~K/2)内取值;b、若两个子类中心的距离dist(W<sub>i,c1</sub>,W<sub>i,c2</sub>)小于预定的阈值θ,则剔除其中一个聚类中心;c、计算每个相关模式<img file="FDA0000091757900000034.GIF" wi="360" he="86" />到所有聚类中心的距离<img file="FDA0000091757900000035.GIF" wi="287" he="81" />若<img file="FDA0000091757900000036.GIF" wi="55" he="63" />和第c<sup>*</sup>类的中心<img file="FDA0000091757900000037.GIF" wi="75" he="60" />的距离最小,则将<img file="FDA0000091757900000038.GIF" wi="58" he="63" />的隶属关系定义为m(k)=c<sup>*</sup>;d、I<sub>num</sub>次迭代后,若某子类中心没有俘获一定数量的相关模式(例如没有超过5个相关模式),则剔除该奇类;e、更新子类数量为C<sub>i+1</sub>,并根据相关模式的隶属关系重新计算新的聚类中心W<sub>i+1,c</sub>(c=1,2,…,C<sub>i+1</sub>);如果算法满足收敛条件则结束,否则返回步骤b,进行下一次迭代计算,以上过程使具有相同阶段特性的相关模式划分为一类,完成对多变阶段批次过程的阶段划分。
地址 511458 广东省广州市南沙区南沙资讯科技园软件北楼203A