发明名称 一种具有普适性的近红外光谱定性分析方法
摘要 一种具有普适性的近红外光谱定性分析方法,获取训练集和预测集样本近红外光谱,构造余弦字典,求解训练集和预测集样本在余弦字典下的表示系数,然后结合表示系数的稀疏度完成光谱重构,再根据重构后的训练集近红外光谱及训练集样本类别编号寻找定性分类的有效投影方向,并完成重构后训练集和预测集近红外光谱的投影变换,接下来计算变换后的训练集和预测集近红外光谱的图拉普拉斯矩阵,并将分类问题转化成优化问题,最后完成分类函数的求解及执行预测集近红外光谱的定性分析。本发明提供了一种精度较高、准确性良好、有效适用于小样本复杂体系的具有普适性的近红外光谱定性分析方法。
申请公布号 CN104237158A 申请公布日期 2014.12.24
申请号 CN201410448988.8 申请日期 2014.09.04
申请人 浙江科技学院 发明人 周扬;刘铁兵;陈正伟;施秧
分类号 G01N21/359(2014.01)I 主分类号 G01N21/359(2014.01)I
代理机构 杭州斯可睿专利事务所有限公司 33241 代理人 王利强
主权项 一种具有普适性的近红外光谱定性分析方法,其特征在于:所述方法包括以下步骤:(1)获取训练集和预测集样本近红外光谱,将训练集近红外光谱表示为X(n×p),其中n为训练集样本数量,p为光谱数据维度;将预测集近红外光谱表示为X'(m×p),其中m为预测集样本数量;X(i,j)表示训练集近红外光谱矩阵中坐标位置为(i,j)的吸光度值,X'(i,j)表示预测集近红外光谱矩阵中坐标位置为(i,j)的吸光度值;构造训练集近红外光谱的类属性矩阵Y(n×K),Y(i,j)表示类属性矩阵中坐标位置为(i,j)的类别属性,其中K为校正集样本中类别数;Y矩阵的每一行对应一个训练集样本,若第t号训练集样本的类别编号为z,则Y(t,j=z)=1,<img file="FDA0000565773280000011.GIF" wi="305" he="65" />(2)用离散余弦函数g<sub>a</sub>[b]=cos(bπa/(10*n*m))逼近近红外光谱中余弦信号特征的吸收峰并构造字典中原子g<sub>a</sub>,每个原子g<sub>a</sub>为一p维列向量,其中b=0,1,...,p‑1,下标a=0,1,...,10*n*m‑1代表频率参量;在10*n*m个原子形成后,使用原子g<sub>a</sub>组成具有过完备特性的字典矩阵G,字典矩阵G的计算式为:G(p×(10*n*m))=[g<sub>0</sub>,g<sub>1</sub>,g<sub>2</sub>...g<sub>10*n*m‑1</sub>];(3)逐一提取训练集近红外光谱矩阵X(n×p)的每个样本光谱,即光谱矩阵X(n×p)的p维行向量,向量记为x<sub>c</sub>,c=1,2...n;逐一提取预测集近红外光谱矩阵X'(m×p)的每个样本光谱,即光谱矩阵X'(m×p)的p维行向量,向量记为x'<sub>d</sub>,d=1,2...m;计算每个近红外光谱x<sub>c</sub>和x'<sub>d</sub>在字典矩阵G下的稀疏表示系数α<sub>c</sub>和α<sub>d</sub>,c=1,2...n,d=1,2...m,其中α<sub>c</sub>和α<sub>d</sub>均为10*n*m维行向量;(4)使用稀疏表示系数向量α<sub>c</sub>重构训练集近红外光谱矩阵中的行向量x'<sub>c</sub>=(G*α<sub>c</sub>)<sup>T</sup>,c=1,2...n,其中,上标T为向量或矩阵转置运算;使用稀疏表示系数向量α<sub>d</sub>重构预测集近红外光谱矩阵中的行向量x″<sub>d</sub>=(G*α<sub>d</sub>)<sup>T</sup>,d=1,2...m,其中上标T为向量或矩阵转置运算;使用重构后的x'<sub>c</sub>,c=1,2...n,逐行替换训练集近红外光谱矩阵X(n×p)中的行向量,形成新的训练集近红外光谱矩阵X<sub>new</sub>(n×p);使用重构后的x″<sub>d</sub>,d=1,2...m逐行替换预测集近红外光谱矩阵X'(m×p)中的行向量,形成新的预测集近红外光谱矩阵X'<sub>new</sub>(m×p);(5)利用训练集近红外光谱数据,寻找实施定性判别的q个投影方向w<sub>k</sub>,w<sub>k</sub>为p维向量,k=1,2...q,该方向能对光谱类别信息数据进行有效分类;(6)将新的训练集近红外光谱矩阵X<sub>new</sub>(n×p)和新的预测集近红外光谱矩阵X'<sub>new</sub>(m×p)向向量w<sub>k</sub>,k=1,2,3...q,方向进行投影变换X<sub>cal</sub>=(X<sub>new</sub>w<sub>1</sub>,X<sub>new</sub>w<sub>2</sub>...X<sub>new</sub>w<sub>q</sub>)、X<sub>tst</sub>=(X'<sub>new</sub>w<sub>1</sub>,X'<sub>new</sub>w<sub>2</sub>...X'<sub>new</sub>w<sub>q</sub>),得到变换后的训练集近红外光谱矩阵和预测集近红外光谱矩阵,分别记作X<sub>cal</sub>(n×q)和X<sub>tst</sub>(m×q);(7)将变换后的训练集近红外光谱矩阵X<sub>cal</sub>(n×q)和预测集近红外光谱矩阵X<sub>tst</sub>(m×q)按行合并为一全体光谱矩阵X<sub>all</sub>((n+m)×q),逐一提取全体光谱矩阵X<sub>all</sub>((n+m)×q)的每个样本光谱,即光谱矩阵X<sub>all</sub>((n+m)×q)的q维行向量,向量记为x<sub>ii</sub>或x<sub>jj</sub>,ii,jj=1,2...n+m;计算关联矩阵W,W<sub>ii,jj</sub>表示关联矩阵中坐标位置为(ii,jj)的值,ii,jj=1,2...n+m且W<sub>ii,jj</sub>=exp(||x<sub>ii</sub>‑x<sub>jj</sub>||<sup>2</sup>/0.48),其中|| ||为向量2范数;计算对角矩阵D,D<sub>ii,jj</sub>表示对角矩阵中坐标位置为(ii,jj)的值,<img file="FDA0000565773280000021.GIF" wi="301" he="142" />且D<sub>ii,jj</sub>=0(ii≠jj)ii,jj=1,2...n+m;计算n+m阶图拉普拉斯方阵L,L=D‑W;(8)将预测集样本的定性分析转换成<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><munder><mi>min</mi><mrow><mi>f</mi><mo>&Element;</mo><msub><mi>H</mi><mi>k</mi></msub></mrow></munder><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>ii</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>max</mi><mrow><mo>(</mo><mn>0,1</mn><mo>-</mo><mi>yf</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>ii</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><msub><mi>&gamma;</mi><mi>K</mi></msub><msubsup><mrow><mo>|</mo><mo>|</mo><mi>f</mi><mo>|</mo><mo>|</mo></mrow><mi>K</mi><mn>2</mn></msubsup><mo>+</mo><msub><mi>&gamma;</mi><mi>I</mi></msub><msup><mi>f</mi><mi>T</mi></msup><mi>Lf</mi></mrow>]]></math><img file="FDA0000565773280000022.GIF" wi="956" he="136" /></maths>优化问题,其中;γ<sub>K</sub>为控制空间复杂度参数,γ<sub>I</sub>为控制结构复杂度参数,H<sub>k</sub>为希尔伯特空间,x<sub>ii</sub>为光谱矩阵X<sub>all</sub>((n+m)×q)的q维行向量,ii=1,2...n+m,x<sub>ii</sub>的前n个样本由训练集近红外光谱组成,y为前n个x<sub>ii</sub>光谱向量对应样本的类别编号向量;f(x<sub>ii</sub>)为x<sub>ii</sub>的分类函数,该函数在输入后m个预测集光谱向量x<sub>ii</sub>时,预测x<sub>ii</sub>光谱对应样本的类别编号;(9)使用拉格朗日乘子法,计算<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><munder><mi>min</mi><mrow><mi>f</mi><mo>&Element;</mo><msub><mi>H</mi><mi>k</mi></msub></mrow></munder><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>ii</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>max</mi><mrow><mo>(</mo><mn>0,1</mn><mo>-</mo><mi>yf</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>ii</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><msub><mi>&gamma;</mi><mi>K</mi></msub><msubsup><mrow><mo>|</mo><mo>|</mo><mi>f</mi><mo>|</mo><mo>|</mo></mrow><mi>K</mi><mn>2</mn></msubsup><mo>+</mo><msub><mi>&gamma;</mi><mi>I</mi></msub><msup><mi>f</mi><mi>T</mi></msup><mi>Lf</mi></mrow>]]></math><img file="FDA0000565773280000023.GIF" wi="944" he="136" /></maths>优化问题的解,得到<img file="FDA0000565773280000024.GIF" wi="544" he="136" />ii=1,2...n+m,其中x<sub>ii</sub>为光谱矩阵X<sub>all</sub>((n+m)×q)的q维行向量,α<sub>ii</sub>为核表示系数,e为截距,均由拉格朗日乘子法求得,K'(,)为核函数;(10)逐一提取预测集近红外光谱矩阵X<sub>tst</sub>(m×q)的每个样本光谱,即光谱矩阵X<sub>tst</sub>(m×q)的q维行向量,向量记为x<sub>u</sub>,u=1,2...m;将m个预测集光谱x<sub>u</sub>代入分类函数<img file="FDA0000565773280000025.GIF" wi="544" he="136" />中,即可获得预测集光谱的类别编号,完成定性分析。
地址 310023 浙江省杭州市西湖区留和路318号浙江科技学院