发明名称 一种基于非平衡样本的计算机数据挖掘方法
摘要 本发明公开了一种基于非平衡样本的计算机数据挖掘方法,该挖掘方法通过输入给定非平衡样本集,并对输入样本进行特征集求解,再采用基于流形学的特征加权法计算特征的权重系数,建立基于权重系数的线性变换加权矩阵,并采用线性变换加权矩阵改造Gauss核函数,得到基于特征加权的核函数,最后建立基于特征加权核函数的支持向量机分类模型,对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据,具有更强的泛化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
申请公布号 CN105469122A 申请公布日期 2016.04.06
申请号 CN201511015488.6 申请日期 2015.12.29
申请人 郑州轻工业学院 发明人 黄海洋;关宏波
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 郑州优盾知识产权代理有限公司 41125 代理人 孙诗雨
主权项 一种基于非平衡样本的计算机数据挖掘方法,其特征在于,包括以下步骤:步骤1:输入给定非平衡样本集X,其中X={X<sub>1</sub>,X<sub>2</sub>,···,X<sub>n</sub>};步骤2:对输入样本进行特征集求解,求取其特征集为f<sub>s</sub>,其特征集f<sub>s</sub>表示为:f<sub>s</sub>={f<sub>1</sub>,f<sub>2</sub>,···,f<sub>n</sub>};步骤3:采用层次分析法计算特征f<sub>i</sub>的权重系数W<sub>i</sub>;步骤4:建立基于权重系数W<sub>i</sub>的线性变换加权矩阵P,其线性变换加权矩阵P表示为:<img file="FDA0000894431660000011.GIF" wi="500" he="310" />步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K(X<sub>i</sub>,X<sub>j</sub>),其核函数K(X<sub>i</sub>,X<sub>j</sub>)表示为:K(X<sub>i</sub>,X<sub>j</sub>)=Φ(X<sub>i</sub>)Φ(X<sub>j</sub>),其中,Φ表示输入空间到特征空间的映射,X<sub>i</sub>和X<sub>j</sub>为非平衡样本集X中的样本;步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>F</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>sgn</mi><mo>{</mo><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>y</mi><mi>i</mi></msub><msub><mi>a</mi><mi>i</mi></msub><mi>K</mi><mrow><mo>(</mo><mrow><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>j</mi></msub></mrow><mo>)</mo></mrow><mo>-</mo><mi>C</mi></mrow><mo>}</mo><mo>,</mo></mrow>]]></math><img file="FDA0000894431660000012.GIF" wi="893" he="134" /></maths>其中,y<sub>i</sub>为类标签,x<sub>i</sub>为样本数据,a<sub>i</sub>为样本点x<sub>i</sub>的拉格朗日乘子,C为惩罚参数,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>C</mi><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>a</mi><mi>i</mi></msub><mo>;</mo></mrow>]]></math><img file="FDA0000894431660000013.GIF" wi="270" he="134" /></maths>步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f(x)求解,从而得到对非平衡样本的筛选分类结果。
地址 450002 河南省郑州市金水区东风路5号