主权项 |
一种基于非平衡样本的计算机数据挖掘方法,其特征在于,包括以下步骤:步骤1:输入给定非平衡样本集X,其中X={X<sub>1</sub>,X<sub>2</sub>,···,X<sub>n</sub>};步骤2:对输入样本进行特征集求解,求取其特征集为f<sub>s</sub>,其特征集f<sub>s</sub>表示为:f<sub>s</sub>={f<sub>1</sub>,f<sub>2</sub>,···,f<sub>n</sub>};步骤3:采用层次分析法计算特征f<sub>i</sub>的权重系数W<sub>i</sub>;步骤4:建立基于权重系数W<sub>i</sub>的线性变换加权矩阵P,其线性变换加权矩阵P表示为:<img file="FDA0000894431660000011.GIF" wi="500" he="310" />步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K(X<sub>i</sub>,X<sub>j</sub>),其核函数K(X<sub>i</sub>,X<sub>j</sub>)表示为:K(X<sub>i</sub>,X<sub>j</sub>)=Φ(X<sub>i</sub>)Φ(X<sub>j</sub>),其中,Φ表示输入空间到特征空间的映射,X<sub>i</sub>和X<sub>j</sub>为非平衡样本集X中的样本;步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>F</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>sgn</mi><mo>{</mo><mrow><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><munderover><mo>Σ</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>y</mi><mi>i</mi></msub><msub><mi>a</mi><mi>i</mi></msub><mi>K</mi><mrow><mo>(</mo><mrow><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>j</mi></msub></mrow><mo>)</mo></mrow><mo>-</mo><mi>C</mi></mrow><mo>}</mo><mo>,</mo></mrow>]]></math><img file="FDA0000894431660000012.GIF" wi="893" he="134" /></maths>其中,y<sub>i</sub>为类标签,x<sub>i</sub>为样本数据,a<sub>i</sub>为样本点x<sub>i</sub>的拉格朗日乘子,C为惩罚参数,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>C</mi><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>a</mi><mi>i</mi></msub><mo>;</mo></mrow>]]></math><img file="FDA0000894431660000013.GIF" wi="270" he="134" /></maths>步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f(x)求解,从而得到对非平衡样本的筛选分类结果。 |