发明名称 一种红外光谱数据PLS建模方法
摘要 本发明公开了一种红外光谱数据PLS建模方法,结合各个间隔区间的PLS模型的误差和误差之间的相关性来确定各个间隔区间的PLS模型的权系数,从而能使所得的融合PLS模型具有最小的误差。本发明的方法可以最好的利用各个间隔区间的光谱信息,简便、可视化、运算量小,可以很快的找到特征波长区间;本方明中的权系数的确定方法由于同时考虑到了各个参与融合的模型的误差以及误差之间的相关性,能保证融合之后的模型具有最小的误差。
申请公布号 CN104091089A 申请公布日期 2014.10.08
申请号 CN201410362602.1 申请日期 2014.07.28
申请人 温州大学 发明人 陈孝敬
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 长沙正奇专利事务所有限责任公司 43113 代理人 马强
主权项 一种红外光谱数据PLS建模方法,其特征在于,包括以下步骤:1)设置最大间隔区间数max_int_no、最大潜变量数max_lv_no、交叉法的重数k<sub>1</sub>和k<sub>2</sub>;其中,k<sub>1</sub>、k<sub>2</sub>均不小于2;2)按照步骤2.1)和步骤2.2)计算间隔区间数为int_no时,对应的融合PLS模型的交叉验证误差,其中1≤int_no≤max_int_no:2.1)将红外光谱样本集数据中的光谱矩阵X平均分为int_no个间隔区间X<sub>i</sub>:每个间隔区间的列数<img file="FDA0000544588690000011.GIF" wi="512" he="156" />[]表示取整;第i个间隔区间X<sub>i</sub>对应光谱矩阵X的第[(i‑1)×l+1]~(i×l)列的数据;1≤i≤int_no;2.2)按照步骤2.2.1)~步骤2.2.5)计算潜变量数为lv_no时,融合PLS模型的<img file="FDA0000544588690000012.GIF" wi="154" he="92" />其中1≤lv_no≤max_lv_no:2.2.1)用k<sub>1</sub>重交叉法计算间隔数为int_no,潜变量数为lv_no时,各个间隔区间对应的PLS模型的交叉验证误差<img file="FDA0000544588690000013.GIF" wi="346" he="149" />其中<img file="FDA0000544588690000014.GIF" wi="229" he="72" />y表示红外光谱样本集数据中的因变量矩阵的实际值,<img file="FDA0000544588690000015.GIF" wi="51" he="72" />表示第i个间隔区间对应的潜变量数为lv_no的PLS模型根据k1重交叉法得到的因变量矩阵的预测值,e<sub>i</sub>是相应的预测残差矩阵,n是红外光谱样本集数据的样品数;2.2.2)计算间隔数为int_no,潜变量数为lv_no时,各个间隔区间对应的PLS模型的预测残差矩阵之间的相关性<img file="FDA0000544588690000016.GIF" wi="755" he="162" />其中,<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>cov</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>,</mo><msub><mi>e</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><mo>&lt;</mo><msub><mi>e</mi><mi>i</mi></msub><mo>,</mo><msub><mi>e</mi><mi>j</mi></msub><mo>></mo><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>int</mi><mo>_</mo><mi>no</mi><mo>;</mo></mrow>]]></math><img file="FDA0000544588690000017.GIF" wi="874" he="121" /></maths>2.2.3)通过非线性优化的方法计算下式:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>f</mi><mo>=</mo><mi>min</mi><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>int</mi><mo>_</mo><mi>no</mi></mrow></munderover><msubsup><mi>&omega;</mi><mi>i</mi><mn>2</mn></msubsup><msup><mi>S</mi><mn>2</mn></msup><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mn>2</mn><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>int</mi><mo>_</mo><mi>no</mi></mrow></munderover><munderover><mi>&Sigma;</mi><mrow><mi>p</mi><mo>></mo><mi>i</mi></mrow><mrow><mi>int</mi><mo>_</mo><mi>no</mi></mrow></munderover><msub><mi>&omega;</mi><mi>i</mi></msub><msub><mi>&omega;</mi><mi>p</mi></msub><msub><mi>r</mi><mi>ip</mi></msub><mi>S</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>S</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000544588690000021.GIF" wi="1071" he="150" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>s</mi><mo>.</mo><mi>t</mi><mfenced open='{' close=''><mtable><mtr><mtd><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>int</mi><mo>_</mo><mi>no</mi></mrow></munderover><msub><mi>&omega;</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn></mtd></mtr><mtr><mtd><mn>0</mn><mo>&le;</mo><msub><mi>&omega;</mi><mi>i</mi></msub><mo>&le;</mo><mn>1</mn></mtd></mtr></mtable></mfenced><mo>;</mo></mrow>]]></math><img file="FDA0000544588690000022.GIF" wi="1096" he="228" /></maths>得到间隔数为int_no,潜变量数为lv_no时,各个间隔区间对应的PLS模型的组合系数ω=[ω<sub>1</sub>,…,ω<sub>int_no</sub>]':2.2.4)用k<sub>2</sub>重交叉法计算间隔数为int_no,潜变量数为lv_no时,各个间隔区间对应的PLS模型的预测残差矩阵<img file="FDA0000544588690000023.GIF" wi="269" he="72" />其中<img file="FDA0000544588690000024.GIF" wi="66" he="72" />表示第i个间隔区间对应的潜变量数为lv_no的PLS模型根据k<sub>2</sub>重交叉法得到的因变量矩阵的预测值,计算<img file="FDA0000544588690000025.GIF" wi="158" he="92" /><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msubsup><mover><mi>f</mi><mo>^</mo></mover><mrow><mi>int</mi><mo>_</mo><mi>no</mi></mrow><mrow><mi>lv</mi><mo>_</mo><mi>no</mi></mrow></msubsup><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>int</mi><mo>_</mo><mi>no</mi></mrow></munderover><msubsup><mi>&omega;</mi><mi>i</mi><mn>2</mn></msubsup><msup><mi>S</mi><mn>2</mn></msup><mrow><mo>(</mo><msub><mi>e</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub><mo>)</mo></mrow><mo>+</mo><mn>2</mn><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>int</mi><mo>_</mo><mi>no</mi></mrow></munderover><munderover><mi>&Sigma;</mi><mrow><mi>p</mi><mo>></mo><mi>i</mi></mrow><mrow><mi>int</mi><mo>_</mo><mi>no</mi></mrow></munderover><msub><mi>&omega;</mi><mi>i</mi></msub><msub><mi>&omega;</mi><mi>p</mi></msub><msub><mi>r</mi><mi>ip</mi></msub><mi>S</mi><mrow><mo>(</mo><msub><mi>e</mi><mrow><mn>2</mn><mi>i</mi></mrow></msub><mo>)</mo></mrow><mi>S</mi><mrow><mo>(</mo><msub><mi>e</mi><mrow><mn>2</mn><mi>p</mi></mrow></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000544588690000026.GIF" wi="1129" he="150" /></maths>2.2.5)选出最小的<img file="FDA0000544588690000027.GIF" wi="122" he="92" />作为间隔区间数为int_no时的融合PLS模型的交叉验证误差,记为<img file="FDA0000544588690000028.GIF" wi="148" he="92" />3)选出所有间隔区间数下最小的<img file="FDA0000544588690000029.GIF" wi="140" he="92" />该最小的<img file="FDA00005445886900000210.GIF" wi="112" he="86" />对应的间隔区间数int_bt、潜变量数lv_bt和组合系数ω_bt作为最优的模型参数;4)根据最优的模型参数构造融合PLS模型:将光谱矩阵X平均分为int_bt个间隔区间,融合PLS模型如下:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msup><mi>y</mi><mo>*</mo></msup><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>g</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>int</mi><mo>_</mo><mi>bt</mi></mrow></munderover><mi>&omega;</mi><mo>_</mo><msub><mi>bt</mi><mi>g</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>g</mi></msub><mo>&times;</mo><msub><mi>b</mi><mi>g</mi></msub><mo>+</mo><msub><mi>c</mi><mi>g</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA00005445886900000211.GIF" wi="599" he="150" /></maths>其中,ω_bt<sub>g</sub>是ω_bt的第g个分量,y<sup>*</sup>是融合PLS模型对样品的因变量的预测值;b<sub>g</sub>、c<sub>g</sub>分别是间隔区间X<sub>g</sub>和因变量矩阵Y对应潜变量数为lv_bt时的偏最小回归系数和截距;x<sub>g</sub>是第g个间隔区间对应的红外光谱数据。
地址 325035 浙江省温州市高教园区