发明名称 基于半监督学的电子鼻室内毒气智能识别方法
摘要 本发明公开了一种基于半监督学的电子鼻室内毒气智能识别方法,采用已知标签的毒气样本数据集L的样本训练每一个基本分类器,在每次学循环中每一个基本分类器轮流作为主分类器,通过主分类器对未知标签样本数据集U进行分类,并利用其余的基本分类器对样本数据集U中数据的标签进行预测,在投票表决结果中,如果数据集U中某一数据标签的投票数超过预先设置好的阈值时,则该样本数据连同它的标签将被用来与原始的数据集L一起重新训练分类器,最后再通过增加分类器的数目来判定系统的识别率是否已经达到最优,这样训练后的分类器不仅具有更多的基本分类器规模,而且具有更强的从未知标签样本中学气味模式的能力。
申请公布号 CN105005790A 申请公布日期 2015.10.28
申请号 CN201510391640.4 申请日期 2015.07.06
申请人 西南大学 发明人 贾鹏飞;段书凯;王丽丹;葛灵普;黄泰来;朱赛克;高锦程;陈祥宇;闫嘉
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 重庆为信知识产权代理事务所(普通合伙) 50216 代理人 余锦曦
主权项 一种基于半监督学习的电子鼻室内毒气智能识别方法,其特征在于按照以下步骤进行:步骤1:获取已知标签的毒气样本数据集L与未知标签的毒气样本数据集U,预设基本分类器的数目M=3,当前训练次数为t;步骤2:从已知标签的毒气样本数据集L中随机产生M个规模相等的子集L<sub>i</sub>来训练每个基本分类器c<sub>i</sub>,i=1~M;步骤3:利用步骤2训练出的每个基本分类器对已知标签的毒气样本数据集L进行分类识别,得到每个分类器的初始识别率,利用简单投票法对所有分类器的判别结果进行整合,得到系统初始识别率;步骤4:设第i个基本分类器c<sub>i</sub>为主分类器,采用主分类器对未知标签的毒气样本数据集U中的数据进行分类,并采用其余的M‑1个基本分类器对未知标签的毒气样本数据集U中数据的标签进行预测,得到预测错误率e<sub>i</sub>(t);步骤5:当本次训练出的基本分类器的预测错误率e<sub>i</sub>(t)低于上一次预测错误率e<sub>i</sub>(t‑1)时,如果未知标签的毒气样本数据集U中的数据被其余M‑1个基本分类器投票的结果超过预设的阈值θ,则将该数据并入数据集L<sub>i</sub>(t)中;步骤6:判断是否满足<img file="FDA0000753322180000011.GIF" wi="573" he="174" />其中|L<sub>i</sub>(t)|表示本次训练数据集L<sub>i</sub>(t)的规模,|L<sub>i</sub>(t‑1)|表示上一次训练数据集L<sub>i</sub>(t‑1)的规模,e<sub>i</sub>(t)表示本次训练出的基本分类器c<sub>i</sub>的预测错误率,e<sub>i</sub>(t‑1)表示上一次训练出的基本分类器c<sub>i</sub>的预测错误率;如果满足,则利用步骤5所得的新的数据集L<sub>i</sub>(t)和原始的数据子集L<sub>i</sub>对基本分类器c<sub>i</sub>进行重新训练;否则,从步骤5所得的新的数据集L<sub>i</sub>(t)中随机移除s个样本后再和原始的数据子集L<sub>i</sub>对基本分类器c<sub>i</sub>进行重新训练,其中:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>s</mi><mo>=</mo><mi>int</mi><mo>(</mo><mo>|</mo><msub><mi>L</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo><mo>-</mo><mfrac><mrow><msub><mi>e</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>|</mo><msub><mi>L</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>|</mo></mrow><mrow><msub><mi>e</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mn>1</mn><mo>)</mo><mo>,</mo></mrow>]]></math><img file="FDA0000753322180000021.GIF" wi="816" he="188" /></maths>int()为取整函数;步骤7:按照i=1~M依次对M个基本分类器进行步骤4至步骤6的操作,直至每个基本分类器的识别率不再发生变化;步骤8:按照M=M+1增加基本分类器的数目,重复步骤2至步骤7的操作,直至系统的识别率达到预期目标。
地址 400715 重庆市北碚区天生路1号