发明名称 基于PSO和SVM混合算法识别太湖入湖河流水质主要影响因素的分析方法
摘要 本发明公开了一种基于PSO和SVM混合算法识别太湖入湖河流水质主要影响因素的分析方法,属于水质监控技术领域。本发明方法将PSO算法与SVM算法结合;PSO算法用于优化SVM算法的参数c和g,以利于快速、高效的确定c和g的全局最优值;SVM算法基于最优的c和g,以影响水质的众多影响因素作为特征向量预测不同水质,通过预测率高低识别确定太湖入湖河流水质的主要影响因素。本发明方法能够准确的从影响水质的各种影响因素中识别出主要影响因素,为河流水质的监控预警提供了有利的证据。
申请公布号 CN102073797B 申请公布日期 2013.02.27
申请号 CN201110043405.X 申请日期 2011.02.23
申请人 江南大学;无锡市滨湖区环境监测站;江苏省环境监测中心 发明人 丁彦蕊;徐国伟;孙培冬;陈蓓;蔡宇杰;王文超
分类号 G06F19/00(2006.01)I 主分类号 G06F19/00(2006.01)I
代理机构 无锡市大为专利商标事务所 32104 代理人 时旭丹;刘品超
主权项 1.一种基于粒子群优化算法PSO和支持向量机算法SVM的混合算法识别河流水质主要影响因素的分析方法,其特征是采用下列步骤(1)~(2):(1)用PSO算法优化SVM算法中的错分样本的惩罚因子c和径向基核函数参数g所述优化步骤为:太湖入湖河流水质主要影响因素的分析过程涉及到的分类问题是一个二分类的线性不可分问题,训练集为{(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),…,(x<sub>i</sub>,y<sub>i</sub>),…,(x<sub>n</sub>,y<sub>n</sub>)},训练集中x<sub>i</sub>∈T<sup>n</sup>为输入向量,T<sup>n</sup>为输入空间,n为样本总数,输出向量为y<sub>i</sub>∈{0,1},i为样本编号;用一个超平面将训练集划分开,该超平面为W·X+b=0,W和b决定了超平面的位置,W为n维向量,X为输入样本向量,b为偏移量,W·X为n维向量和输入样本向量的内积;为了得到最优的划分,二分类的线性不可分问题被转化为求最优化的超平面问题:<img file="FDA00001871130800011.GIF" wi="1878" he="79" />y<sub>i</sub>[(W.X<sub>i</sub>)]≥1-ξ<sub>i</sub>,ξ<sub>i</sub>≥0(i=1,2,...,n)                          (2)公式(1)和公式(2)中ξ<sub>i</sub>为样本i的松弛因子,W为n维向量,y<sub>i</sub>为样本i的输出向量,公式(1)中ξ为松弛因子,c为错分样本的惩罚因子,n为样本总数;公式(2)中X<sub>i</sub>为第i个样本向量,满足公式(2)且使公式(1)中1/2‖W‖<sup>2</sup>最小的超平面为最优超平面;令f(X)=W·X+b,公式(1)的优化问题可转化为:<img file="FDA00001871130800012.GIF" wi="1900" he="117" /><img file="FDA00001871130800013.GIF" wi="1914" he="73" />公式(3)和(4)中α<sub>i</sub>为第i个样本的Lagrange乘子,公式(3)中α为样本的Lagrange乘子,α<sub>j</sub>为第j个样本的Lagrange乘子,X<sub>i</sub>为第i个样本向量,X<sub>j</sub>为第j个样本向量,y<sub>i</sub>为第i个样本的输出向量,y<sub>j</sub>为第j个样本的输出向量,n为样本总数,公式(4)中c为错分样本的惩罚因子,公式(4)为公式(3) 的约束条件;通过一个映射函数将低维的输入空间T<sup>n</sup>映射到高维的特征空间H,使二分类的线性不可分问题转化为线性可分问题,即:Ψ:T<sup>n</sup>→H,核函数K(X<sub>i</sub>,X<sub>j</sub>)=ψ(X<sub>i</sub>)·ψ(X<sub>j</sub>),Ψ(X<sub>i</sub>)为对X<sub>i</sub>的线性变换,Ψ(X<sub>j</sub>)为对X<sub>j</sub>的线性变换,X<sub>i</sub>为第i个样本向量,X<sub>j</sub>为第j个样本向量,则公式(3)描述的优化问题转化为:<img file="FDA00001871130800021.GIF" wi="1917" he="117" /><img file="FDA00001871130800022.GIF" wi="1914" he="73" />公式(5)和(6)中α<sub>i</sub>为第i个样本的Lagrange乘子,公式(5)中α为样本的Lagrange乘子,α<sub>j</sub>为第j个样本的Lagrange乘子,X<sub>i</sub>为第i个样本向量,X<sub>j</sub>为第j个样本向量,y<sub>i</sub>为第i个样本的输出向量,y<sub>j</sub>为第j个样本的输出向量,n为样本总数,公式(6)中c为错分样本的惩罚因子,公式(6)为公式(5)的约束条件;本发明使用的核函数为径向基RBF核函数:K(X<sub>i</sub>,X<sub>j</sub>)=exp(-g‖X<sub>i</sub>-X<sub>j</sub>‖)<sup>2</sup>,g为径向基核函数参数,X<sub>i</sub>为第i个样本向量,X<sub>j</sub>为第j个样本向量;将径向基RBF核函数带入公式(5),最优化问题就转化为公式(5)的最小化问题:<img file="FDA00001871130800023.GIF" wi="1901" he="117" /><img file="FDA00001871130800024.GIF" wi="1914" he="74" />公式(7)和(6)中α<sub>i</sub>为第i个样本的Lagrange乘子,公式(7)中α为样本的Lagrange乘子,α<sub>j</sub>为第j个样本的Lagrange乘子,X<sub>i</sub>为第i个样本向量,X<sub>j</sub>为第j个样本向量,y<sub>i</sub>为第i个样本的输出向量,y<sub>j</sub>为第j个样本的输出向量,n为样本总数,g为径向基核函数参数,公式(6)中c为错分样本的惩罚因子,公式(6)为公式(7)的约束条件;公式(7)的最小值由错分样本的惩罚因子 c和径向基核函数参数g来决定;错分样本的惩罚因子c的作用是在确定的数据子空间中调节学习机器置信区间范围;径向基核函数参数g的改变实际上隐含着改变映射函数,从而改变样本空间分布的复杂程度,也就决定了线性分类达到的最小误差;使用PSO算法对错分样本的惩罚因子c和径向基核函数参数g进行优化,过程为步骤(A)和(B):(A)数据集的划分和归一化首先将数据集随机分成十份,取其中一份作为预测集,剩下的九份作为训练集,然后赋值给训练集和预测集以及相关标签值,如此循环10次,并进行数据的归一化;(B)PSO算法进行参数优化,具体过程包括步骤(a)~(f):(a)初始化粒子群微粒的位置和速度,并初始化SVM的参数错分样本的惩罚因子c和径向基核函数参数g;(b)评价粒子群中每个微粒的适应度;(c)对每个微粒,将微粒的适应度和经历过的当前最好位置pbest作比较,选择适应度最大时的位置作为当前最好位置pbest;(d)对每个微粒,将微粒的适应度和经历过的全局最好位置gbest作比较,如果微粒的适应度更好则重新设置gbest;(e)利用粒子速度更新方程变化微粒的位置和速度,进行多次迭代,寻找全局最优的适应度;(f)分类器评价算法的评价分为局部预测率和全局预测率,只有两种预测率都较高时所构建的分类器才可靠;局部预测率:<img file="FDA00001871130800031.GIF" wi="1932" he="203" />公式(8)中<img file="FDA00001871130800032.GIF" wi="169" he="131" />T<sub>i</sub>为第i类样本中预测为正确的数目,n<sub>i</sub>为第i类样本的总数目,ρ为水质类别;全局预测率:<img file="FDA00001871130800041.GIF" wi="1920" he="193" />公式(9)中,T<sub>i</sub>为第i类样本中预测为正确的数目,N为所有各类样本的样本数目的总和,ρ为水质类别;(2)用SVM算法识别影响河流水质的主要影响因素以影响河流水质的不同因素为SVM的特征向量,利用具有最优的错分样本的惩罚因子c和径向基核函数参数g的SVM算法进行预测,根据预测率高低比较每一个因素对水质的影响,从而识别影响水质的主要影响因素;将测定的河流水质的24种影响因素,随机分为含有24种、21种、18种、15种、12种、9种及6种影响因素的数据集,分别以这些影响因素为特征向量,对水质进行预测,根据预测率识别确定含有主要影响因素的集合;所述24种影响因素为氨氮NH<sub>3</sub>-N,总氮TN,高锰酸盐指数COD<sub>Mn</sub>,总磷TP,石油类,镉Cd,铅Pb,砷As,溶解氧DO,水温,汞Hg,硒Se,pH值,总铜Cu,氟化物F,硫化物,电导率,5日生化需氧量BOD<sub>5</sub>,化学需氧量COD,总锌Zn,挥发酚、氰化物TCN,六价铬Cr,阴离子表面活性剂LAS。 
地址 214122 江苏省无锡市无锡市滨湖区蠡湖大道1800号江南大学物联网工程学院