发明名称 一种采用透射光谱鉴别水中细菌的方法
摘要 本发明公开了一种采用透射光谱鉴别水中细菌的方法,适用于水体常见致病菌分类鉴别,在实验室内对待鉴别细菌进行24h纯种活化培养,测量获得致病菌的紫外可见多波长透射光谱,以此作为训练集,利用基于网格搜索法的内部交叉验证获取建模所需最佳惩罚因子C和核函数参数g,根据最优参数和一对一多分类的支持向量机法建立细菌快速分类鉴别模型。测量不同批次培养的同种细菌的透射光谱作为测试集,带入模型以实现细菌种类鉴别。该方法具有较高的准确性、稳定性和泛化能力,是饮用水源、食品、药品等领域细菌快速鉴别的一种简便、快速、准确的方法。
申请公布号 CN105158175A 申请公布日期 2015.12.16
申请号 CN201510551898.6 申请日期 2015.09.01
申请人 中国科学院合肥物质科学研究院 发明人 段静波;赵南京;王久悦;方丽;马明俊;孟德硕;肖雪;杨瑞芳;刘文清
分类号 G01N21/25(2006.01)I 主分类号 G01N21/25(2006.01)I
代理机构 安徽合肥华信知识产权代理有限公司 34112 代理人 余成俊
主权项 一种采用透射光谱鉴别水中细菌的方法,其特征在于:包括以下步骤:(1)、受试细菌培养及悬浮液制备:选取水体常见致病菌为研究对象,并选取合适的培养基进行培养,对培养基及相关器皿进行高温高压灭菌,将研究对象的标准菌样放入光照培养箱中进行24h~48h静置活化培养,培养条件设置如下:光照2000‑3000lux、光暗比14h:10h、培养温度依据菌种的最适宜生长温度选择;对培养的细菌菌液进行离心洗涤处理,制备每种细菌悬浮液,通过加入去离子水调节细菌悬浮液浓度,选取悬浮液浓度对应200nm处的光密度值在0.2‑0.8之间的悬浮液作为训练集或测试集样本,每种细菌悬浮液配置至少10个不同浓度的样本,训练集细菌和测试集细菌为不同时间批次培养的同种细菌,二者应在相同的环境条件下培养,并使用与测试集样本相同的条件和方法制备训练集细菌悬浮液,训练集和测试集样本浓度无须完全相同,选取悬浮液浓度对应200nm处的光密度值在0.2‑0.8之间的悬浮液样本作为测试集均可;(2)、透射光谱采集:以去离子水为参比,将细菌悬浮液放入紫外可见分光光度计中进行透射光谱测定,光谱测量范围为200‑900nm,取样间隔为1nm,扫描速度为中速,每次测量重复三次取平均值;(3)、细菌透射光谱分类鉴别模型的建立,包括如下步骤:(3.1)、细菌透射光谱信息提取:对步骤(2)测量得到的透射光谱进行均值归一化处理,利用归一化的训练集光谱数据建立细菌种类鉴别模型,建模过程充分利用整个测量波段200‑900nm中每个波长处的光密度值;将细菌均值归一化后的透射光谱训练样本集数据记为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mo>(</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mn>1</mn></msub><mo>,</mo><msub><mi>l</mi><mn>1</mn></msub><mo>)</mo><mo>,</mo><mo>(</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mn>2</mn></msub><mo>,</mo><msub><mi>l</mi><mn>2</mn></msub><mo>)</mo><mo>,</mo><mo>...</mo><mo>,</mo><mo>(</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mi>n</mi></msub><mo>,</mo><msub><mi>l</mi><mi>n</mi></msub><mo>)</mo><mo>,</mo></mrow>]]></math><img file="FDA0000793857800000011.GIF" wi="515" he="77" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>X</mi><mo>=</mo><mrow><mo>&lsqb;</mo><mrow><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mn>1</mn></msub><mo>;</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mn>2</mn></msub><mo>;</mo><mn>...</mn><mo>;</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mi>n</mi></msub></mrow><mo>&rsqb;</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000793857800000012.GIF" wi="411" he="76" /></maths>其中,X是n×m维的数据矩阵,<img file="FDA0000793857800000013.GIF" wi="494" he="74" />是第i个细菌样本归一化后的m维光密度数据组成的矢量,m为扫描波长总数且m=701,n为细菌悬浮液样本总数;<img file="FDA0000793857800000021.GIF" wi="333" he="82" />是n维类别矢量,l<sub>i</sub>是细菌第i个样本的类别标签,即第i种细菌样本对应的等级;(3.2)、内部交叉验证:选取基于网格搜索的3折交叉验证方法进行内部交叉验证,过程如下:将细菌训练集样本数据<img file="FDA0000793857800000022.GIF" wi="373" he="70" />和类别矢量<img file="FDA0000793857800000023.GIF" wi="44" he="73" />代入基于网格寻优的接口函数SVMcgForclass,接口函数SVMcgForclass默认进行3折交叉验证过程,设置支持向量机惩罚因子C和核函数参数g各自的取值范围,并设定各自的进步步长,进行基于网格搜索的内部交叉验证,获得支持向量机惩罚因子C和核函数参数g的最优参数组合,使模型达到最佳分类结果并具有最优的泛化能力;(3.3)、基于支持向量机细菌分类鉴别模型的构建:支持向量机的核心是在原始数据线性不可分的情况下,利用核函数变换到高维空间,对数据集进行线性可分,采用一对一多分类的支持向量机方法构建细菌种类鉴别模型,过程如下:第1步、获取训练集<img file="FDA0000793857800000024.GIF" wi="514" he="77" /><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>X</mi><mo>=</mo><mrow><mo>&lsqb;</mo><mrow><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mn>1</mn></msub><mo>;</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mn>2</mn></msub><mo>;</mo><mn>...</mn><mo>;</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mi>n</mi></msub></mrow><mo>&rsqb;</mo></mrow></mrow>]]></math><img file="FDA0000793857800000025.GIF" wi="375" he="75" /></maths>为模型建立的训练集特征矢量,包括细菌分类所需的全部信息,获得的<img file="FDA0000793857800000026.GIF" wi="372" he="74" />是线性不可分的,在支持向量机建模时需先选取合适的核函数进行高维变换;第2步、构造并求解最优化问题:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mover><mi>&alpha;</mi><mo>&RightArrow;</mo></mover></munder><mi> </mi><mi>Q</mi><mrow><mo>(</mo><mover><mi>&alpha;</mi><mo>&RightArrow;</mo></mover><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><msub><mi>&alpha;</mi><mi>j</mi></msub><msub><mi>y</mi><mi>i</mi></msub><msub><mi>y</mi><mi>j</mi></msub><mi>K</mi><mrow><mo>(</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000793857800000027.GIF" wi="933" he="143" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><mo>,</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mn>0</mn><mo>,</mo></mrow>]]></math><img file="FDA0000793857800000028.GIF" wi="339" he="135" /></maths>0≤α<sub>i</sub>≤C   i=1,2,...,n,<img file="FDA0000793857800000029.GIF" wi="120" he="77" />分别是第i,j个细菌样本归一化后的m维光密度数据组成的矢量,y<sub>i</sub>,y<sub>j</sub>是结果标签,y<sub>i</sub>,y<sub>j</sub>∈Y={1,‑1},<img file="FDA00007938578000000210.GIF" wi="196" he="78" />是核函数,<img file="FDA00007938578000000211.GIF" wi="57" he="59" />是拉格朗日对偶变量,α<sub>i</sub>,<img file="FDA00007938578000000212.GIF" wi="531" he="87" />α<sub>i</sub>,α<sub>j</sub>是不同的拉格朗日乘子,α<sub>i</sub>,i=1,…,n,α<sub>j</sub>,j=1,…,n,C是一个参数,用于控制目标函数中两项之间的权重,即惩罚因子;第3步、计算<img file="FDA0000793857800000031.GIF" wi="301" he="140" />选择<img file="FDA0000793857800000032.GIF" wi="55" he="62" />的一个正分量α<sub>j</sub>,并据此计算:<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>b</mi><mo>=</mo><msub><mi>y</mi><mi>j</mi></msub><mo>-</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>y</mi><mi>i</mi></msub><msub><mi>&alpha;</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>&CenterDot;</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000793857800000033.GIF" wi="490" he="140" /></maths>其中<img file="FDA0000793857800000034.GIF" wi="57" he="75" />b分别是线性超平面的法向量和截距;第4步、把<img file="FDA0000793857800000035.GIF" wi="274" he="138" />带入超平面方程得到判别函数:<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>sgn</mi><mrow><mo>(</mo><mover><mi>&omega;</mi><mo>&RightArrow;</mo></mover><mo>&CenterDot;</mo><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mo>+</mo><mi>b</mi><mo>)</mo></mrow><mo>=</mo><mi>sgn</mi><mrow><mo>(</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><msub><mi>y</mi><mi>i</mi></msub><mo>(</mo><msub><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>&CenterDot;</mo><mover><mi>x</mi><mo>&RightArrow;</mo></mover><mo>)</mo></mrow><mo>+</mo><mi>b</mi><mo>)</mo><mo>,</mo></mrow>]]></math><img file="FDA0000793857800000036.GIF" wi="942" he="138" /></maths>通过以上支持向量机分类模型鉴定待测细菌种类。
地址 230031 安徽省合肥市蜀山区蜀山湖路350号