一种基于大间隔的集成分类方法,申请号CN201510997198.X-传众专利搜索

发明名称	一种基于大间隔的集成分类方法
摘要	本发明公开了一种基于大间隔的集成分类方法，包括，步骤一：对随机的数据按照规定比例划分训练集、验证集；步骤二：基于对训练集S＝{(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}，运行AdaBoost算法T步，输出强分类器sgn[f(x)]和弱分类集{h<sub>1</sub>(x),h<sub>2</sub>(x),...,h<sub>T</sub>(x)}；步骤三：基于所述sgn[f(x)]计算每个训练样本(x<sub>i</sub>,y<sub>i</sub>)的间隔，并对其间隔按升序排列；步骤四：基于所述sgn[f(x)]和验证集计算验证误差ve，通过所述验证误差ve按如下公式计算出训练集中S＝{(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}的近似噪声比例的te等步骤进行，该方法通过分类算法能够生成更大的间隔分布，在多数数据集上表现出更好的预测性能。
申请公布号	CN105574549A	申请公布日期	2016.05.11
申请号	CN201510997198.X	申请日期	2015.12.24
申请人	天津大学	发明人	廖士中;刘川;吴建钢
分类号	G06K9/62(2006.01)I	主分类号	G06K9/62(2006.01)I
代理机构	天津市北洋有限责任专利代理事务所 12201	代理人	叶青
主权项	一种基于大间隔的集成分类方法，包括如下步骤：步骤一：对随机的数据按照规定比例划分训练集、验证集；步骤二：基于对训练集S＝{(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}，运行AdaBoost算法T步，输出强分类器sgn[f(x)]和弱分类集{h<sub>1</sub>(x),h<sub>2</sub>(x),...,h<sub>T</sub>(x)}；其中，<maths num="0001"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><mfrac><mrow><msub><mi>α</mi><mi>t</mi></msub><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow><mrow><mo>\|</mo><mo>\|</mo><mi>α</mi><mo>\|</mo><msub><mo>\|</mo><mn>1</mn></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000888951590000011.GIF" wi="370" he="143" /></maths>步骤三：基于所述sgn[f(x)]计算每个训练样本(x<sub>i</sub>,y<sub>i</sub>)的间隔，并对其间隔按升序排列；步骤四：基于所述sgn[f(x)]和验证集计算验证误差ve，通过所述验证误差ve按如下公式计算出训练集中S＝{(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}的近似噪声比例的te，<maths num="0002"><math><![CDATA[<mrow><mi>t</mi><mi>e</mi><mo>=</mo><mi>Pr</mi><mo>[</mo><munder><mi>Pr</mi><mi>s</mi></munder><mrow><mo>(</mo><mover><mi>y</mi><mo>^</mo></mover><mo>=</mo><mi>y</mi><mo>\|</mo><mi>x</mi><mo><</mo><mn>0.5</mn><mo>)</mo></mrow><mo>]</mo><mo>≈</mo><mi>Pr</mi><mo>[</mo><munder><mi>Pr</mi><mi>D</mi></munder><mrow><mo>(</mo><mover><mi>y</mi><mo>^</mo></mover><mo>=</mo><mi>y</mi><mo>\|</mo><mi>x</mi><mo>)</mo></mrow><mo><</mo><mn>0.5</mn><mo>]</mo><mo>≈</mo><mi>v</mi><mi>e</mi><mo>;</mo></mrow>]]></math><img file="FDA0000888951590000012.GIF" wi="1134" he="87" /></maths>步骤五：基于验证误差ve估算训练集S＝{(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}上噪声样本的数量k；步骤六：选取任意训练样本(x<sub>i</sub>,y<sub>i</sub>)，如果训练样本(x<sub>i</sub>,y<sub>i</sub>)在所述sgn[f(x)]中的间隔排在k前，则从训练集中S＝{(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}中移除，进而获得新的训练集S<sup></sup>；步骤七：对步骤一中弱分类集{h<sub>1</sub>(x),h<sub>2</sub>(x),...,h<sub>T</sub>(x)}进行计算获取组合系数β<sub>t</sub>，同时通过线性规划公式对步骤五中剩余部分的训练集S＝{(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}获取最大间隔；如下线性公式：max<sub>β,m</sub> m<maths num="0003"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msub><mi>y</mi><mi>i</mi></msub><munderover><mo>Σ</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>β</mi><mi>t</mi></msub><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&GreaterEqual;</mo><mi>m</mi></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000888951590000013.GIF" wi="459" he="134" /></maths><maths num="0004"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><msub><mi>β</mi><mi>t</mi></msub><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><munderover><mo>Σ</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>β</mi><mi>t</mi></msub><mo>=</mo><mn>1</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000888951590000014.GIF" wi="364" he="134" /></maths>其中(x<sub>i</sub>,y<sub>i</sub>)来自新的训练集S<sup></sup>；步骤八：将步骤六获得的最优解通过公式<img file="FDA0000888951590000015.GIF" wi="352" he="134" />对应的新组合系数获得新的集成强分类器sgn[g(x)]。
地址	300072 天津市南开区卫津路72号