发明名称 一种基于分段形态表示的工业序列数据缺失的填补方法
摘要 一种基于分段形态表示的工业序列数据缺失的填补方法,首先对待填补的目标序列进行非等间距分割,并通过幅值水平、变化趋势以及波动大小三个特征量对分割后序列进行形态表示,然后建立一种计算形态表示相似系数的方法,利用计算的相似系数来寻找相似序列,最后利用机器学方法训练待填补序列的相似序列,以建立数据缺失填补模型,实现对缺失数据序列的填补。本发明能够对工业过程因数据存储或传输故障等原因导致的序列数据缺失情况进行填补,进一步完整监测数据,提高数据的可靠性为实施工业过程基于数据的优化、控制和调度工作提供保障。
申请公布号 CN103246702B 申请公布日期 2016.01.06
申请号 CN201310113824.5 申请日期 2013.04.02
申请人 大连理工大学 发明人 刘颖;赵珺;盛春阳;徐世坤;王伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 大连理工大学专利中心 21200 代理人 梅洪玉
主权项 一种基于分段形态表示的工业序列数据缺失的填补方法,其特征在于如下步骤:(1)从工业现场的实时数据库读取序列数据,用序列数据划分为与待填补的目标序列等长的样本序列;(2)将待填补序列和其他的样本序列进行非等间距分割:首先对序列进行非等间距划分,逐次取序列内点与指定邻域δ内的所有数据点进行比较,若该点为其范围内最大值点或最小值点则将该点定义为关键点,取全部关键点对序列进行粗划分;如果两个关键点之间的数据点数小于3个,则不需要精划分,否则,验证关键点间的数据是否平稳,并对非平稳的粗划分进一步精划分:选取两个关键点间的任意一点,将该点右侧的点与左侧关键点间做连线,如果该点到各条连线间的距离的最大值大于指定的最大拟合误差,则视该点为一个新的关键点,用于进行分割;对于序列S,将序列划分为n段,序列表示如式:S={(s<sub>1l</sub>,s<sub>1r</sub>,l<sub>1</sub>),......,(s<sub>kl</sub>,s<sub>kr</sub>,l<sub>k</sub>),......s<sub>nl</sub>,s<sub>nr</sub>,l<sub>n</sub>)}其中,s<sub>kl</sub>,s<sub>kr</sub>,l<sub>k</sub>分别表示第k段划分的左侧起点和右侧终点以及第k段划分包含的段数;(3)计算序列的形态相似性,筛选训练样本①用均值偏移,变化趋势以及标准差来描述序列特征;序列的均值表示为:u=(u<sub>1</sub>,......,u<sub>k</sub>,......u<sub>n</sub>)其中,u<sub>k</sub>表示第k段序列的均值;序列变化趋势用tr表示,tr表示形式如下:tr=(1,0,......,1)其中,1表示序列趋势上升即在该段划分内s<sub>kr</sub>&gt;s<sub>kl</sub>,否则用0表示序列趋势下降;σ为序列标准差,表示序列的波动程度,即:σ=(σ<sub>1</sub>,......,σ<sub>k</sub>,......,σ<sub>n</sub>)其中,σ<sub>k</sub>表示第k段序列的标准差;对于给定的序列,序列均值偏移表示该段序列偏离序列整体均值的程度,能够有效表示幅值所处的一个整体水平,序列S的第k段均值偏移表示为q<sub>k</sub>=u<sub>k</sub>/u;②对于比较两相似序列S<sub>i</sub>,S<sub>j</sub>第k段划分的相似性,定义第k段的相似性系数为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>&rho;</mi><mi>k</mi></msub><mo>=</mo><mo>|</mo><msub><mi>q</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>+</mo><mrow><mo>(</mo><mi>x</mi><mi>o</mi><mi>r</mi><mo>(</mo><mrow><msub><mi>tr</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>,</mo><msub><mi>tr</mi><mrow><mi>j</mi><mi>k</mi></mrow></msub></mrow><mo>)</mo><mo>)</mo></mrow><msub><mi>q</mi><mrow><mi>j</mi><mi>k</mi></mrow></msub><mo>|</mo><mfrac><mrow><mi>m</mi><mi>a</mi><mi>x</mi><mrow><mo>(</mo><msub><mi>&sigma;</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>,</mo><msub><mi>&sigma;</mi><mrow><mi>j</mi><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>*</mo><msub><mi>l</mi><mi>k</mi></msub></mrow><mrow><mi>m</mi><mi>a</mi><mi>x</mi><mrow><mo>(</mo><msub><mi>&sigma;</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>,</mo><msub><mi>&sigma;</mi><mrow><mi>j</mi><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>+</mo><mi>a</mi><mi>min</mi><mrow><mo>(</mo><msub><mi>&sigma;</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>,</mo><msub><mi>&sigma;</mi><mrow><mi>j</mi><mi>k</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000824313370000011.GIF" wi="1160" he="144" /></maths>其中,a表示序列波动大小对序列相似性的决定程度;l<sub>k</sub>为第k段分割的线段数;xor(tr<sub>ik</sub>,tr<sub>jk</sub>)为序列S<sub>i</sub>,S<sub>j</sub>的第k段划分变化趋势取异或,即若趋势变化相同则为0,否则为1;则给定的序列S<sub>i</sub>,S<sub>j</sub>的相似系数为:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>Q</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&rho;</mi><mi>k</mi></msub></mrow>]]></math><img file="FDA0000824313370000021.GIF" wi="296" he="120" /></maths>③相似系数表示两序列的差异程度,相似系数越小,相似度越高;根据计算所得的相似性系数,从数据样本中寻找与待填补的目标样本相似性最高的N个样本作为训练样本;(4)基于机器学习的数据填补模型以高斯过程的回声状态网络更新公式为:x(t+1)=f(W<sup>in</sup>u(t+1)+Wx(t)+W<sup>back</sup>y(t))y(t+1)=f<sup>out</sup>(W<sup>out</sup>(u(t+1),x(t+1),y(t)))其中,f为系统激活函数;x(t)为t时刻储备池神经元的状态,u(t)为t时刻系统输入变量,y(t)为系统输出变量,W<sup>in</sup>为输入权值矩阵,W为储备池的内部神经元连接权值矩阵,储备池稀疏度通常保持0.01‑0.05的连接,谱半径小于1,W<sup>back</sup>为输出神经元与内部状态神经元的反馈连接,f<sup>out</sup>为输出激活函数,W<sup>out</sup>为输出权值矩阵,W<sup>in</sup>,W,W<sup>back</sup>在训练过程中不变;回声状态网络的输出模型重新写成:y(t+1)=φ<sup>T</sup>([u(t+1),x(t+1),y(t)])W<sup>out</sup>+ε(t+1)这里φ是非线性函数,假定W<sup>out</sup>服从先验概率<img file="FDA0000824313370000024.GIF" wi="182" he="67" />噪声ε服从独立同分布<img file="FDA0000824313370000025.GIF" wi="229" he="73" />那么y(t+1)也是高斯过程;在使用高斯过程时,从函数的角度来看,y(t+1)的均值和方差如下式计算<img file="FDA0000824313370000023.GIF" wi="576" he="86" /><img file="FDA0000824313370000026.GIF" wi="900" he="81" />式中φ是对函数φ([u(t+1),x(t+1),y(t)])的简写;定义核函数K=k(φ,φ')=φ<sup>T</sup>φ,给定回声状态网络的一个输入u<sub>*</sub>,那么相应的网络输出写为y<sub>*</sub>,进一步将输出写成以给定输入和数据样本情况下的条件概率形式p(y<sub>*</sub>|u<sub>*</sub>,U,y,k),其中U为输入样本矩阵U=[u<sub>1</sub>,u<sub>2</sub>,…,u<sub>n</sub>],y为输出样本矩阵y=[y<sub>1</sub>,y<sub>2</sub>,…,y<sub>n</sub>],得到下式<img file="FDA0000824313370000022.GIF" wi="749" he="159" />其中,k(U,u<sub>*</sub>)=k(u<sub>*</sub>,U)<sup>T</sup>=[k(u<sub>*</sub>,u<sub>1</sub>),…,k(u<sub>*</sub>,u<sub>n</sub>)]<sup>T</sup>,表示为k<sub>*</sub>,同时令k<sub>*</sub>=k(u<sub>*</sub>,u<sub>*</sub>)和K=k(U,U);根据高斯分布的性质,得到<img file="FDA0000824313370000034.GIF" wi="1208" he="98" />这样,计算出y<sub>*</sub>的均值μ(y<sub>*</sub>),网络输出的估计值如式所示为:<img file="FDA0000824313370000031.GIF" wi="784" he="72" />假设待填补的含缺失点序列S由两部分组成:S<sub>obs</sub>表示观测部分和S<sub>abs</sub>表示缺失部分;通过上述提出的基于序列形态相似的相似性寻找方法,将S<sub>obs</sub>作为目标序列获得q个最相似序列组成相似集<img file="FDA0000824313370000032.GIF" wi="70" he="65" />q作为回声状态网络的训练样本数量,相似集<img file="FDA0000824313370000033.GIF" wi="44" he="52" />中的相似序列的观测部分S<sub>obs</sub>作为训练输入,S<sub>abs</sub>作为训练输出,用于训练数据填补模型,通过训练获得完整的数据缺失填补模型;(5)将待填补序列S观测部分作为训练好的填补模型的输入,模型的输出即为序列S的缺失部分。
地址 116024 辽宁省大连市凌工路2号