发明名称 一种光谱分析中样品集划分的化学计量学方法
摘要 本发明公开了一种光谱分析中样品集划分的化学计量学方法。计算参考化学值和每一个波长上的光谱吸光度的相关系数,在全谱范围内找到相关最高的波长点;分别对样品的参考化学值和光谱数据进行归一化处理;基于归一化处理的数据,设计把参考化学值最大和最小的2个样品,以及吸光度值最大和最小的2个样品放入定标集,并把相应次大次小值的4个样品放入预测集;对剩余的样品做充分多次的随机划分,基于最高相关波长点,对每一次划分分别计算定标集和预测集样品的化学值和吸光度的相关系数,如果某一个划分的定标集相关系数和预测集相关系数充分接近,则选择这个划分用来建立光谱分析模型。本发明为光谱分析的模型优化提供了良好的数据基础。
申请公布号 CN102854151A 申请公布日期 2013.01.02
申请号 CN201210375066.X 申请日期 2012.10.06
申请人 桂林理工大学 发明人 陈华舟
分类号 G01N21/25(2006.01)I;G01N21/35(2006.01)I;G01N21/33(2006.01)I;G01N21/65(2006.01)I 主分类号 G01N21/25(2006.01)I
代理机构 代理人
主权项 1.一种光谱分析中样品集划分的化学计量学方法,其特征在于具体步骤为:1)数据归一化a)参考化学值的归一化<maths num="0001"><![CDATA[<math><mrow><msub><mi>C</mi><mi>m</mi></msub><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>C</mi><mi>j</mi></msub><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><mi>norm</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>C</mi><mi>j</mi></msub><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msub><mi>C</mi><mi>j</mi></msub><mo>-</mo><mover><mi>C</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mfrac><mover><mo>=</mo><mi>&Delta;</mi></mover><msub><mi>C</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>j=1,2....N,           (2)b)光谱数据的归一化<img file="FDA00002225412700013.GIF" wi="377" he="151" />i=1,2....P,           (3)<img file="FDA00002225412700014.GIF" wi="683" he="253" />i=1,2....P,j=1,2….N,(4)<maths num="0003"><![CDATA[<math><mrow><mo>|</mo><msub><mi>A</mi><mi>j</mi></msub><mo>|</mo><mo>=</mo><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>P</mi></munderover><msup><mrow><mo>(</mo><mi>norm</mi><mrow><mo>(</mo><msub><mi>A</mi><mi>ij</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mover><mo>=</mo><mi>&Delta;</mi></mover><msub><mi>A</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>j=1,2....N,           (5)其中,N为样品个数,P为波长点个数;C<sub>j</sub>为样品j的参考化学值,C<sub>m</sub>为所有样品的参考化学值均值,C<sub>n</sub>(j)=norm(C<sub>j</sub>)为该样品的参考化学值经过归一化计算之后的化学值数据;A<sub>ij</sub>为样品j在第i个波长的吸光度值,A<sub>i,m</sub>为该样品在第i个波长处的吸光度平均值,norm(A<sub>ij</sub>)为该样品在第i个波长处的吸光度值经过归一化计算之后的吸光度值;A<sub>n</sub>(j)=|A<sub>j</sub>|为样品j的吸光度向量的模;基于上述参考化学值和吸光度的归一化计算,每个样品对应有一个C<sub>n</sub>(j)和一个A<sub>n</sub>(j);根据琅勃比尔定律,基于所有样品的C<sub>n</sub>(j)和A<sub>n</sub>(j)(j=1,2,...,N),回归计算每个样品的化学值预测值C’<sub>n</sub>(j),随后计算每个样品的归一化数据回归偏差,即RDND,进一步对所有样品计算RDND的平均值,即RDND<sub>Ave</sub>;RDND(j)=|C’<sub>n</sub>(j)-C<sub>n</sub>(j)|,       (6)2)最值和次值样品的划分为了定标预测模型能够具有保证良好的相关性,原则上需要把具有C<sub>n</sub>(j)最大值和最小值的2个样品和具有A<sub>n</sub>(j)最大值和最小值的2个样品放入定标集,把具有C<sub>n</sub>(j)次大值和次小值的2个样品和具有A<sub>n</sub>(j)次大值和次小值的2个样品放入预测集;然而,这其中所选择的样品可能有若干个是相同的,需要做相应的选择处理;具体操作过程如下:把具有C<sub>n</sub>(j)最大值和最小值的2个样品和具有A<sub>n</sub>(j)最大值和最小值的2个样品作为最值集合,记为SZ;同时把具有C<sub>n</sub>(j)次大值和次小值的2样品和具有A<sub>n</sub>(j)次大值和次小值的2样品作为次值集合,记为SC;首先假设SZ和SC的内部样品均不相同,设定每个集合内部的样品个数为4,下面针对SZ和SC的交集进行讨论,以确定最值样品的划分;如果SZ∩SC为空集,即SZ和SC互相之间没有相同的样品,则SZ所有样品放入定标集,SC所有样品放入预测集;进一步记录SZ内部具有相同样品的个数s<sub>1</sub>和SC内部具有相同样品的个数s<sub>2</sub>,即s<sub>1</sub>,s<sub>2</sub>∈{0,1,2};如果SZ∩SC不为空集,则记录SZ∩SC内部样品的个数s<sub>3</sub>,s<sub>3</sub>=1,2,3,4,把SZ∩SC内部每一个样品的RDND分别与RDND<sub>Ave</sub>比较大小,如果某个样品的RDND&gt;RDND<sub>Ave</sub>,则该样品选择放入定标集,否则将该样品选择放入预测集;然后,把SZ∩Cs(SC)内部所有样品放入定标集,把Cs(SZ)∩SC内部所有样品放入预测集,并分别记录SZ∩Cs(SC)内部和Cs(SZ)∩SC内部具有相同样品的个数s<sub>1</sub>和s<sub>2</sub>,即s<sub>1</sub>,s<sub>2</sub>∈{0,1,2};其中Cs是补集运算符;3)剩余样品的划分原则经过最值样品的划分以后,剩余样品个数为N-8+s<sub>1</sub>+s<sub>2</sub>+s<sub>3</sub>。关于剩余样品的划分,基于最高相关的原则,分别计算每一个波长点i的光谱数据和参考化学值的相关系数R(i),<maths num="0004"><![CDATA[<math><mrow><mi>R</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mrow><mo>(</mo><msub><mi>C</mi><mi>j</mi></msub><mo>-</mo><msub><mi>C</mi><mi>m</mi></msub><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>A</mi><mi>ij</mi></msub><mo>-</mo><msub><mi>A</mi><mrow><mi>i</mi><mo>,</mo><mi>m</mi></mrow></msub><mo>)</mo></mrow></mrow><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msub><mi>C</mi><mi>j</mi></msub><mo>-</mo><msub><mi>C</mi><mi>m</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msub><mi>A</mi><mi>ij</mi></msub><mo>-</mo><msub><mi>A</mi><mrow><mi>i</mi><mo>,</mo><mi>m</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mfrac><mo>,</mo></mrow></math>]]></maths>i=1,2….P,(7)从所有的波长点中找到最大的R<sub>note</sub>=max{R(i),i=1,2....P},并记录R<sub>note</sub>所在的波长点序号i<sub>note</sub>;对剩余的样品做足够多次的随意划分,对每一次划分,选取第i<sub>note</sub>个波长点处的光谱数据{A<sub>note</sub>},结合样品的参考化学值,分别在定标集内和预测集内计算相关系数R<sub>Cset</sub>和R<sub>Pset</sub>;<maths num="0005"><![CDATA[<math><mrow><msub><mi>R</mi><mi>Cset</mi></msub><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><mrow><mo>(</mo><msub><mi>C</mi><mrow><mi>L</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></msub><mo>-</mo><msub><mi>C</mi><mi>Lm</mi></msub><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>A</mi><mrow><mi>note</mi><mo>,</mo><mi>L</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></msub><mo>-</mo><msub><mi>A</mi><mrow><mi>note</mi><mo>,</mo><mi>Lm</mi></mrow></msub><mo>)</mo></mrow></mrow><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msup><mrow><mo>(</mo><msub><mi>C</mi><mrow><mi>L</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></msub><mo>-</mo><msub><mi>C</mi><mi>Lm</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msup><mrow><mo>(</mo><msub><mi>A</mi><mrow><mi>note</mi><mo>,</mo><mi>L</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></msub><mo>-</mo><msub><mi>A</mi><mrow><mi>note</mi><mo>,</mo><mi>Lm</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mfrac><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0006"><![CDATA[<math><mrow><msub><mi>R</mi><mi>Pset</mi></msub><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><mrow><mo>(</mo><msub><mi>C</mi><mrow><mi>K</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></msub><mo>-</mo><msub><mi>C</mi><mi>Km</mi></msub><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>A</mi><mrow><mi>note</mi><mo>,</mo><mi>K</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></msub><mo>-</mo><msub><mi>A</mi><mrow><mi>note</mi><mo>,</mo><mi>Km</mi></mrow></msub><mo>)</mo></mrow></mrow><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msup><mrow><mo>(</mo><msub><mi>C</mi><mrow><mi>K</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></msub><mo>-</mo><msub><mi>C</mi><mi>Km</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msup><mrow><mo>(</mo><msub><mi>A</mi><mrow><mi>note</mi><mo>,</mo><mi>K</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></msub><mo>-</mo><msub><mi>A</mi><mrow><mi>note</mi><mo>,</mo><mi>Km</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mfrac><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中L、K分别为定标集和预测集样品数量,即L+K=N;C<sub>Lm</sub>,C<sub>Km</sub>分别为定标集和预测集样品化学值平均值,A<sub>note,L(j)</sub>为定标集中第j个样品在第i<sub>note</sub>个波长点上的光谱数据,A<sub>note,Lm</sub>为定标集样品在第i<sub>note</sub>个波长点上的光谱数据均值,A<sub>note,K(j)</sub>为预测集中第j个样品在第i<sub>note</sub>个波长点上的光谱数据,A<sub>note,Km</sub>为预测集样品在第i<sub>note</sub>个波长点上的光谱数据均值;计算R<sub>Cset</sub>和R<sub>Pset</sub>之间的绝对偏差,即Absolute offset of correlation coefficients,简称AOC:AOC=|R<sub>Cset</sub>-R<sub>Pset</sub>|,(10)选择AOC足够小的一个划分作为以下建立近红外光谱分析模型的划分;按照这种划分方法,设计把全部待分析样品按照2:1的比例划分为定标集和预测集;根据设定的AOC选择合适的划分。
地址 541004 广西壮族自治区桂林市建干路12号