发明名称 一种基于韦恩预测的电子鼻数据挖掘方法
摘要 本发明公开了一种基于韦恩预测的电子鼻数据挖掘方法,具体步骤为:首先对原始数据进行特征提取生成特征空间数据集;然后建立韦恩预测算法框架,选择支持向量机和k平均聚类融合算法作为分类器进行模式识别;假设测试样本为某一类别y,测试样本和训练样本形成数据集,利用“除一法”对数据集中各个样本进行建模和预测;遍历所有y值,得出概率预测矩阵;最后给出所有预测样本的预测种类和预测正确的概率区间。本方案克服了传统的模式识别算法只对样本的种类进行预测的缺陷,在预测样本种类的同时给出预测正确的概率区间,为决策提供了更多的有效信息。本发明适用于所有电子鼻数据的处理。
申请公布号 CN105095689A 申请公布日期 2015.11.25
申请号 CN201510428867.1 申请日期 2015.07.20
申请人 浙江大学 发明人 王酉;苗加成;李光
分类号 G06F19/24(2011.01)I 主分类号 G06F19/24(2011.01)I
代理机构 杭州杭诚专利事务所有限公司 33109 代理人 王江成;卢金元
主权项 一种基于韦恩预测的电子鼻数据挖掘方法,其特征在于,包括以下步骤:S01、获取m个传感器的n次实验数据,得到原始样本矩阵M,原始样本矩阵表示为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>M</mi><mo>=</mo><mfenced open = '[' close = ']'><mtable><mtr><mtd><msub><mi>x</mi><mn>11</mn></msub></mtd><mtd><msub><mi>x</mi><mn>12</mn></msub></mtd><mtd><mo>...</mo></mtd><mtd><msub><mi>x</mi><mrow><mn>1</mn><mi>m</mi></mrow></msub></mtd></mtr><mtr><mtd><msub><mi>x</mi><mn>21</mn></msub></mtd><mtd><msub><mi>x</mi><mn>22</mn></msub></mtd><mtd><mo>...</mo></mtd><mtd><msub><mi>x</mi><mrow><mn>2</mn><mi>m</mi></mrow></msub></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd></mtr><mtr><mtd><msub><mi>x</mi><mrow><mi>n</mi><mn>1</mn></mrow></msub></mtd><mtd><msub><mi>x</mi><mrow><mi>n</mi><mn>2</mn></mrow></msub></mtd><mtd><mo>...</mo></mtd><mtd><msub><mi>x</mi><mrow><mi>n</mi><mi>m</mi></mrow></msub></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000763341250000011.GIF" wi="727" he="352" /></maths>其中,<img file="FDA0000763341250000012.GIF" wi="562" he="99" />(i=1,2,…n,j=1,2…,m)是一个向量,表示第i次实验第j个传感器随采样时间得到的采样点数据,采样点数目为s;S02、提取原始样本矩阵M中每次实验每个传感器的s个采样点中的最大响应值,得到最大值特征矩阵X,最大值特征矩阵表示为:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>X</mi><mo>=</mo><mfenced open = '[' close = ']'><mtable><mtr><mtd><msubsup><mi>x</mi><mn>11</mn><mi>max</mi></msubsup></mtd><mtd><msubsup><mi>x</mi><mn>12</mn><mi>max</mi></msubsup></mtd><mtd><mo>...</mo></mtd><mtd><msubsup><mi>x</mi><mrow><mn>1</mn><mi>m</mi></mrow><mi>max</mi></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>x</mi><mn>21</mn><mi>max</mi></msubsup></mtd><mtd><msubsup><mi>x</mi><mn>22</mn><mi>max</mi></msubsup></mtd><mtd><mo>...</mo></mtd><mtd><msubsup><mi>x</mi><mrow><mn>2</mn><mi>m</mi></mrow><mi>max</mi></msubsup></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd><mtd><mrow></mrow></mtd></mtr><mtr><mtd><msubsup><mi>x</mi><mrow><mi>n</mi><mn>1</mn></mrow><mi>max</mi></msubsup></mtd><mtd><msubsup><mi>x</mi><mrow><mi>n</mi><mn>2</mn></mrow><mi>max</mi></msubsup></mtd><mtd><mo>...</mo></mtd><mtd><msubsup><mi>x</mi><mrow><mi>n</mi><mi>m</mi></mrow><mi>max</mi></msubsup></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000763341250000013.GIF" wi="867" he="375" /></maths>其中,<img file="FDA0000763341250000014.GIF" wi="139" he="93" />是一个标量,表示第i次实验第j个传感器s个采样点数据中的最大值;对n次实验的样本种类进行编号1,2…k,k代表原始样本的种类数,生成样本的标签Y;得到样本矩阵Z=[X Y],z<sub>i</sub>={x<sub>i</sub>,y<sub>i</sub>},i={1,2,…,n};S03、将样本矩阵Z分为训练集S<sub>tr</sub>和测试集S<sub>te</sub>,S<sub>tr</sub>={z<sub>1</sub>,z<sub>2</sub>,…,z<sub>r‑1</sub>};抽取测试集中某一样本z<sub>t</sub>进行预测;S04、假设y<sub>t</sub>=y,y∈{1,2,…k}。新的数据集Z<sub>t</sub>=[z<sub>1</sub>,z<sub>2</sub>,…,z<sub>r‑1</sub>,z<sub>t</sub>];S05、对于Z<sub>t</sub>中的每一个样本z<sub>j</sub>,j={1,2,…r‑1,t},其他样本构成新的训练集进行建模,然后对z<sub>j</sub>进行预测,得到它的预测种类b<sub>j</sub>;S06、预测类别为b<sub>t</sub>的样本集合中包括z<sub>t</sub>=(x<sub>t</sub>,y);令p<sub>y</sub>是这个集合中不同类别的经验概率分布,<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>p</mi><mi>y</mi></msub><mrow><mo>(</mo><msup><mi>y</mi><mo>&prime;</mo></msup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><mrow><mo>(</mo><msup><mi>x</mi><mo>*</mo></msup><mo>,</mo><msup><mi>y</mi><mo>*</mo></msup><mo>)</mo></mrow><mo>&Element;</mo><msub><mi>b</mi><mi>t</mi></msub><mo>:</mo><msup><mi>y</mi><mo>*</mo></msup><mo>=</mo><msup><mi>y</mi><mo>&prime;</mo></msup><mo>|</mo></mrow><mrow><mo>|</mo><msub><mi>b</mi><mi>t</mi></msub><mo>|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000763341250000021.GIF" wi="813" he="167" /></maths>p<sub>y</sub>是Y上的概率分布;(x<sup>*</sup>,y<sup>*</sup>)是预测类别为b<sub>t</sub>的所有样本的集合,y’的取值是1到k;S07、返回步骤S04,令y逐一等于1到k中的每一个值,重复步骤S05和S06,最终得到对于样本z<sub>t</sub>的韦恩预测器P<sub>t</sub>={p<sub>y</sub>:y<sub>t</sub>∈Y};P<sub>t</sub>是一个K*K的概率矩阵;定义P<sub>t</sub>每一列的最小项为q,具有最大q值的列为j<sub>best</sub>;z<sub>t</sub>的预测种类是j<sub>best</sub>,预测正确的概率区间是<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mrow><mo>&lsqb;</mo><mrow><munder><mstyle><mi>min</mi></mstyle><mrow><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>k</mi></mrow></munder><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><msub><mi>j</mi><mrow><mi>b</mi><mi>e</mi><mi>s</mi><mi>t</mi></mrow></msub></mrow></msub><mo>,</mo><munder><mstyle><mi>max</mi></mstyle><mrow><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>k</mi></mrow></munder><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><msub><mi>j</mi><mrow><mi>b</mi><mi>e</mi><mi>s</mi><mi>t</mi></mrow></msub></mrow></msub></mrow><mo>&rsqb;</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000763341250000022.GIF" wi="683" he="100" /></maths>S08、逐一对步骤S03中测试集的样本进行预测,得到相应的韦恩预测器P,预测种类j<sub>best</sub>和预测正确的概率区间;最终求出模型的预测的准确率以及所有预测样本预测正确的概率区间的并集。
地址 310058 浙江省杭州市西湖区余杭塘路866号