发明名称 一种基于大间隔的集成分类方法
摘要 本发明公开了一种基于大间隔的集成分类方法,包括,步骤一:对随机的数据按照规定比例划分训练集、验证集;步骤二:基于对训练集S={(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)},运行AdaBoost算法T步,输出强分类器sgn[f(x)]和弱分类集{h<sub>1</sub>(x),h<sub>2</sub>(x),...,h<sub>T</sub>(x)};步骤三:基于所述sgn[f(x)]计算每个训练样本(x<sub>i</sub>,y<sub>i</sub>)的间隔,并对其间隔按升序排列;步骤四:基于所述sgn[f(x)]和验证集计算验证误差ve,通过所述验证误差ve按如下公式计算出训练集中S={(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}的近似噪声比例的te等步骤进行,该方法通过分类算法能够生成更大的间隔分布,在多数数据集上表现出更好的预测性能。
申请公布号 CN105574549A 申请公布日期 2016.05.11
申请号 CN201510997198.X 申请日期 2015.12.24
申请人 天津大学 发明人 廖士中;刘川;吴建钢
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 叶青
主权项 一种基于大间隔的集成分类方法,包括如下步骤:步骤一:对随机的数据按照规定比例划分训练集、验证集;步骤二:基于对训练集S={(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)},运行AdaBoost算法T步,输出强分类器sgn[f(x)]和弱分类集{h<sub>1</sub>(x),h<sub>2</sub>(x),...,h<sub>T</sub>(x)};其中,<maths num="0001"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><mfrac><mrow><msub><mi>&alpha;</mi><mi>t</mi></msub><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow><mrow><mo>|</mo><mo>|</mo><mi>&alpha;</mi><mo>|</mo><msub><mo>|</mo><mn>1</mn></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000888951590000011.GIF" wi="370" he="143" /></maths>步骤三:基于所述sgn[f(x)]计算每个训练样本(x<sub>i</sub>,y<sub>i</sub>)的间隔,并对其间隔按升序排列;步骤四:基于所述sgn[f(x)]和验证集计算验证误差ve,通过所述验证误差ve按如下公式计算出训练集中S={(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}的近似噪声比例的te,<maths num="0002"><math><![CDATA[<mrow><mi>t</mi><mi>e</mi><mo>=</mo><mi>Pr</mi><mo>&lsqb;</mo><munder><mi>Pr</mi><mi>s</mi></munder><mrow><mo>(</mo><mover><mi>y</mi><mo>^</mo></mover><mo>=</mo><mi>y</mi><mo>|</mo><mi>x</mi><mo>&lt;</mo><mn>0.5</mn><mo>)</mo></mrow><mo>&rsqb;</mo><mo>&ap;</mo><mi>Pr</mi><mo>&lsqb;</mo><munder><mi>Pr</mi><mi>D</mi></munder><mrow><mo>(</mo><mover><mi>y</mi><mo>^</mo></mover><mo>=</mo><mi>y</mi><mo>|</mo><mi>x</mi><mo>)</mo></mrow><mo>&lt;</mo><mn>0.5</mn><mo>&rsqb;</mo><mo>&ap;</mo><mi>v</mi><mi>e</mi><mo>;</mo></mrow>]]></math><img file="FDA0000888951590000012.GIF" wi="1134" he="87" /></maths>步骤五:基于验证误差ve估算训练集S={(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}上噪声样本的数量k;步骤六:选取任意训练样本(x<sub>i</sub>,y<sub>i</sub>),如果训练样本(x<sub>i</sub>,y<sub>i</sub>)在所述sgn[f(x)]中的间隔排在k前,则从训练集中S={(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}中移除,进而获得新的训练集S<sup>*</sup>;步骤七:对步骤一中弱分类集{h<sub>1</sub>(x),h<sub>2</sub>(x),...,h<sub>T</sub>(x)}进行计算获取组合系数β<sub>t</sub>,同时通过线性规划公式对步骤五中剩余部分的训练集S={(x<sub>1</sub>,y<sub>1</sub>),(x<sub>2</sub>,y<sub>2</sub>),...,(x<sub>n</sub>,y<sub>n</sub>)}获取最大间隔;如下线性公式:max<sub>β,m</sub> m<maths num="0003"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msub><mi>y</mi><mi>i</mi></msub><munderover><mo>&Sigma;</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>&beta;</mi><mi>t</mi></msub><msub><mi>h</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&GreaterEqual;</mo><mi>m</mi></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000888951590000013.GIF" wi="459" he="134" /></maths><maths num="0004"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><msub><mi>&beta;</mi><mi>t</mi></msub><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><munderover><mo>&Sigma;</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>&beta;</mi><mi>t</mi></msub><mo>=</mo><mn>1</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000888951590000014.GIF" wi="364" he="134" /></maths>其中(x<sub>i</sub>,y<sub>i</sub>)来自新的训练集S<sup>*</sup>;步骤八:将步骤六获得的最优解通过公式<img file="FDA0000888951590000015.GIF" wi="352" he="134" />对应的新组合系数获得新的集成强分类器sgn[g(x)]。
地址 300072 天津市南开区卫津路72号