发明名称 一种基于Laplacian算子的特征选择方法
摘要 本发明公开了一种基于Laplacian算子的特征选择方法,所述方法既考虑到了样本和类标签之间的关联又保留了样本和样本之间的相互依赖关系。具体来说,提出的Lap-Lasso方法包含了两个正则化项,第一项是稀疏化正则化项,保证只有少数量的特征能被选择。另外,引入了一个新的基于Laplacian的正则化项,用于保留同类样本之间的局部相邻结构信息。进一步,使用APG即AcceleratedProximalGradient算法来优化所提出的模型。在UCI数据集的实验结果验证了Lap-lasso方法的有效性。
申请公布号 CN104408480A 申请公布日期 2015.03.11
申请号 CN201410713386.0 申请日期 2014.11.28
申请人 安徽师范大学 发明人 接标;左开中;王涛春;丁新涛;胡桂银;罗永龙
分类号 G06K9/66(2006.01)I;G06K9/46(2006.01)I 主分类号 G06K9/66(2006.01)I
代理机构 南京钟山专利代理有限公司 32252 代理人 戴朝荣
主权项 一种基于Laplacian算子的特征选择方法,其特征在于,具体步骤如下:步骤一、建立Lasso特征选择方法优化的目标函数:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>min</mi><mi>W</mi></msub><mfrac><mn>1</mn><mn>2</mn></mfrac><msubsup><mrow><mo>|</mo><mo>|</mo><mi>Y</mi><mo>-</mo><msup><mi>X</mi><mi>T</mi></msup><mi>w</mi><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><mi>&lambda;</mi><msub><mrow><mo>|</mo><mo>|</mo><mi>w</mi><mo>|</mo><mo>|</mo></mrow><mn>1</mn></msub><mo>;</mo></mrow>]]></math><img file="FDA0000619703100000011.GIF" wi="659" he="97" /></maths>其中,X表示给定训练样本集:X=[x<sub>1</sub>,x<sub>2</sub>,…,x<sub>N</sub>]<sup>T</sup>∈R<sup>N×d</sup>,x<sub>i</sub>表示第i个样本的特征向量,N表示训练样本个数,d表示特征维数;Y表示样本所对应的相应向量:Y=[y<sub>1</sub>,y<sub>2</sub>,…,y<sub>N</sub>]∈R<sup>N</sup>,y<sub>i</sub>表示样本的类标签,且y<sub>i</sub>∈{+1,‑1};w表示特征向量的回归系数;λ&gt;0表示一个正则化参数,用于平衡模型复杂度和数据拟合程度;步骤二、在步骤一的Lasso目标函数中引入一个正则化项:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><munder><mi>min</mi><mi>w</mi></munder><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>N</mi></munderover><msup><mrow><mo>|</mo><mo>|</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><msub><mi>S</mi><mi>ij</mi></msub><mo>=</mo><msup><mrow><mn>2</mn><mi>w</mi></mrow><mi>T</mi></msup><msup><mi>X</mi><mi>T</mi></msup><mi>LXw</mi><mo>;</mo></mrow>]]></math><img file="FDA0000619703100000012.GIF" wi="933" he="194" /></maths>其中,S=[S<sub>ij</sub>]表示一个相似矩阵,定义了两个样本之间相似性;xi和x<sub>j</sub>分别表示两个样本;L=D‑S表示Laplacian矩阵,D表示对角矩阵,且<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>D</mi><mi>ii</mi></msub><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msub><mi>S</mi><mi>ij</mi></msub><mo>,</mo></mrow>]]></math><img file="FDA0000619703100000013.GIF" wi="325" he="86" /></maths><img file="FDA0000619703100000014.GIF" wi="769" he="174" />根据所引入的正则化项,采用基于Laplacian算子的特征选择方法,构建Lap‑Lasso目标函数模型,其表达如下:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><munder><mi>min</mi><mi>w</mi></munder><mfrac><mn>1</mn><mn>2</mn></mfrac><msubsup><mrow><mo>|</mo><mo>|</mo><mi>Y</mi><mo>-</mo><msup><mi>X</mi><mi>T</mi></msup><mi>w</mi><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><mi>&lambda;</mi><msub><mrow><mo>|</mo><mo>|</mo><mi>w</mi><mo>|</mo><mo>|</mo></mrow><mn>1</mn></msub><mo>+</mo><msup><mi>&beta;w</mi><mi>T</mi></msup><msup><mi>X</mi><mi>T</mi></msup><mi>LXw</mi><mo>;</mo></mrow>]]></math><img file="FDA0000619703100000015.GIF" wi="943" he="123" /></maths>其中,λ和β是两个大于0的常数;步骤三、求解上述Lap‑Lasso目标函数模型,其中,Lasso稀疏化项使得少量的特征能被选择,而Laplacian正则化项保留同类标签样本的局部相邻结构信息,实现帮助诱导出更有判别力的特征。
地址 241002 安徽省芜湖市九华南路189号