发明名称 一种实现基于单源信息融合的组合分类器的系统及方法
摘要 一种实现基于单源信息融合的组合分类器的系统及方法,包括定义了基于特征选择的组合分类器设计模型,方法通过引入性能优化策略,实现了分类器间串并联方式的灵活搭配组合,通过定义分类器间相似性的度量标准,充分挖掘不同分类器的潜在能力,形成优势互补,将组合分类器的整体性能发挥到最大效能,此外,为了提高组合分类器的在线分类处理能力,引入效率优先策略,通过对组合分类器的每一级分别实施特征选择,使之建立的二元分类器分类正确率最高且输入特征子集规模最小,实现效率与效果的最佳折衷,上述策略的应用使整个方法更加系统、全面,加之整个方法基于领域无关的设计理念,适用范围更加广泛,体现了方法极大的健壮性和良好的可扩展性。
申请公布号 CN102708376B 申请公布日期 2015.10.21
申请号 CN201210115607.5 申请日期 2012.04.19
申请人 中国人民解放军总参谋部第六十三研究所 发明人 刁兴春;曹建军;袁震;严浩;李凯齐;彭琮
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 代理人
主权项 一种实现基于单源信息融合的组合分类器的方法,该组合分类器适用于解决故障诊断中的分类器设计,其特征是所述方法包括建立基于特征选择的组合分类器模型的步骤:对含L个分类器的组合分类器,记P<sub>l</sub>,q<sub>l</sub>为第l个分类器的分类正确率,第l个分类器输入特征子集及分类器的构造由如下目标函数确定:<maths num="0001" id="cmaths0001"><math><![CDATA[<mfenced open='' close=''><mtable><mtr><mtd><mi>max</mi></mtd><mtd><msub><mi>P</mi><mi>l</mi></msub></mtd></mtr><mtr><mtd><mi>max</mi></mtd><mtd><mn>1</mn><mo>-</mo><munderover><mi>max</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>l</mi><mo>-</mo><mn>1</mn></mrow></munderover><mo>{</mo><msub><mi>S</mi><mi>c</mi></msub><mrow><mo>(</mo><msub><mi>p</mi><mi>j</mi></msub><mo>,</mo><msub><mi>p</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>}</mo></mtd></mtr><mtr><mtd><mi>min</mi></mtd><mtd><msub><mi>q</mi><mi>l</mi></msub></mtd></mtr></mtable></mfenced>]]></math><img file="FSB0000138941320000011.GIF" wi="520" he="258" /></maths>以至于所设计的第l个分类器同时具有最大的分类正确率,与其它分类器之间最差的相似性,以及最小的特征子集规模,三个目标函数的优先级由高到低;其中,对目标函数min q<sub>l</sub>,给定q最大值为α,对q=1,2,...,α分别运行蚁群算法,取分类效果最好且q值最小的那组特征;其中,将其余两个目标函数进行加权求和转化为单目标函数:<maths num="0002" id="cmaths0002"><math><![CDATA[<mi>max</mi><mrow><msub><mi>&alpha;</mi><mn>1</mn></msub><msub><mi>P</mi><mi>l</mi></msub><mo>+</mo><msub><mi>&alpha;</mi><mn>2</mn></msub><mrow><mo>(</mo><mn>1</mn><mo>-</mo><munderover><mi>max</mi><mrow><mi>j</mi><mo>+</mo><mn>1</mn></mrow><mrow><mi>l</mi><mo>-</mo><mn>1</mn></mrow></munderover><mo>{</mo><msub><mi>S</mi><mi>c</mi></msub><mrow><mo>(</mo><msub><mi>p</mi><mi>j</mi></msub><mo>,</mo><msub><mi>p</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>}</mo><mo>)</mo></mrow></mrow>]]></math><img file="FSB0000138941320000012.GIF" wi="746" he="148" /></maths>其中,α<sub>1</sub>>0,α<sub>2</sub>>0,α<sub>1</sub>+α<sub>2</sub>=1,当P<sub>l</sub>→1,l=1,2,...,L时,目标函数<img file="FSB0000138941320000013.GIF" wi="475" he="107" />的值趋向于0,因此,目标函数max P<sub>l</sub>和<img file="FSB0000138941320000014.GIF" wi="476" he="109" />二者相互矛盾,所以,为避免出现以减小正确率为代价而获取较高的成员分类器间不相似性,取较大的α<sub>1</sub>,在上式中取α<sub>1</sub>=0.7,α<sub>2</sub>=0.3;其中,对给定样本集,训练样本和测试样本相同,若对同一类型的分类器Λ,功能相同也就是将相同的状态样本映射至相同的类空间,且参数设置相同,则对一给定特征子集subset确定相应的样本特征向量,通过训练样本特征向量对分类器训练,然后用测试样本对分类器测试,可以将subset映射为一个确定的分类器Λ<sub>subset</sub>和一个输出结果分布矩阵p,即Λ(subset)=(Λ<sub>subset</sub>,p)分类器Λ<sub>subset</sub>的相似性可以由subset的相似程度和p的相似程度来度量,分别称为输入相似性和输出相似性;分类器输入相似性判定准则:将分类器的输入相似性定义为分类器输入特征子集的相似程度,对两个分类器输入特征子集subset<sub>1</sub>和subset<sub>2</sub>,且均为非空子集,用谷元距离度量它们的相似程度:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>S</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>subse</mi><msub><mi>t</mi><mn>1</mn></msub><mo>,</mo><mi>subse</mi><msub><mi>t</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mtext>|subse</mtext><msub><mi>t</mi><mn>1</mn></msub><mo>|</mo><mo>+</mo><mo>|</mo><mi>subse</mi><msub><mi>t</mi><mn>2</mn></msub><mo>|</mo><mo>-</mo><mn>2</mn><mo>|</mo><mi>subse</mi><msub><mi>t</mi><mn>1</mn></msub><mo>&cap;</mo><mi>subse</mi><msub><mi>t</mi><mn>2</mn></msub><mo>|</mo></mrow><mrow><mo>|</mo><mi>subse</mi><msub><mi>t</mi><mn>1</mn></msub><mo>|</mo><mo>+</mo><mo>|</mo><mi>subse</mi><msub><mi>t</mi><mn>2</mn></msub><mo>|</mo><mo>-</mo><mo>|</mo><mi>subse</mi><msub><mi>t</mi><mn>1</mn></msub><mo>&cap;</mo><mi>subse</mi><msub><mi>t</mi><mn>2</mn></msub><mo>|</mo></mrow></mfrac></mrow>]]></math><img file="FSB0000138941320000015.GIF" wi="1370" he="151" /></maths>其中,S<sub>t</sub>为分类器的输入相似性程度函数,S<sub>t</sub>∈[0,1],S<sub>t</sub>=0时,意味着两子集之间没有相同元素,S<sub>t</sub>=1时,意味着两子集完全相同,用其对应的训练样本训练所确定的分类器也相同,即S<sub>t</sub>越大两子集的相似性越强,分类器的输入相似性越强;分类器输出相似性判定准则:将分类器的输出相似性定义为分类器分类结果分布矩阵的相似程度,对两分类器的分类结果分布矩阵p<sub>1</sub>=[p<sub>1,ii′</sub>],p<sub>2</sub>=[p<sub>2,ii′</sub>],i=1,2,...,M,i′=1,2,...,M′,M,M′为自然数,用如下归一化的皮尔森相关系数度量它们的相似程度:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>S</mi><mi>c</mi></msub><mrow><mo>(</mo><msub><mi>p</mi><mn>1</mn></msub><mo>,</mo><msub><mi>p</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><munderover><mi>&Sigma;</mi><mrow><msup><mi>i</mi><mo>&prime;</mo></msup><mo>=</mo><mn>1</mn></mrow><msup><mi>M</mi><mo>&prime;</mo></msup></munderover><mrow><mo>(</mo><msub><mi>p</mi><mrow><mn>1</mn><mo>,</mo><msup><mi>ii</mi><mo>&prime;</mo></msup></mrow></msub><mo>-</mo><msub><mover><mi>p</mi><mo>&OverBar;</mo></mover><mn>1</mn></msub><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>p</mi><mrow><mn>2</mn><msup><mrow><mo>,</mo><mi>ii</mi></mrow><mo>&prime;</mo></msup></mrow></msub><mo>-</mo><msub><mover><mi>p</mi><mo>&OverBar;</mo></mover><mn>2</mn></msub><mo>)</mo></mrow></mrow><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><munderover><mi>&Sigma;</mi><mrow><msup><mi>i</mi><mo>&prime;</mo></msup><mo>=</mo><mn>1</mn></mrow><msup><mi>M</mi><mo>&prime;</mo></msup></munderover><msup><mrow><mo>(</mo><msub><mi>p</mi><mrow><mn>1</mn><mo>,</mo><msup><mi>ii</mi><mo>&prime;</mo></msup></mrow></msub><mo>-</mo><msub><mover><mi>p</mi><mo>&OverBar;</mo></mover><mn>1</mn></msub><mo>)</mo></mrow><mn>2</mn></msup><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><munderover><mi>&Sigma;</mi><mrow><msup><mi>i</mi><mo>&prime;</mo></msup><mo>=</mo><mn>1</mn></mrow><msup><mi>M</mi><mo>&prime;</mo></msup></munderover><msup><mrow><mo>(</mo><msub><mi>p</mi><mrow><mn>2</mn><mo>,</mo><msup><mi>ii</mi><mo>&prime;</mo></msup></mrow></msub><mo>-</mo><msub><mover><mi>p</mi><mo>&OverBar;</mo></mover><mn>2</mn></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mfrac><mo>+</mo><mn>1</mn></mrow><mn>2</mn></mfrac></mrow>]]></math><img file="FSB0000138941320000021.GIF" wi="1206" he="341" /></maths>上式中,S<sub>c</sub>为分类器的输出相似性程度函数,<img file="FSB0000138941320000022.GIF" wi="118" he="52" />分别为矩阵p<sub>1</sub>,p<sub>2</sub>的元素均值:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mover><mi>p</mi><mo>&OverBar;</mo></mover><mn>1</mn></msub><mo>=</mo><mfrac><mn>1</mn><msup><mi>MM</mi><mo>&prime;</mo></msup></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><munderover><mi>&Sigma;</mi><mrow><msup><mi>i</mi><mo>&prime;</mo></msup><mo>=</mo><mn>1</mn></mrow><msup><mi>M</mi><mo>&prime;</mo></msup></munderover><msub><mi>p</mi><mrow><mn>1</mn><mo>,</mo><msup><mi>ii</mi><mo>&prime;</mo></msup></mrow></msub></mrow>]]></math><img file="FSB0000138941320000023.GIF" wi="410" he="126" /></maths>S<sub>c</sub>∈[0,1],S<sub>c</sub>=1时,意味着两分布矩阵完全正相关,对应分类器的分类结果分布矩阵相同,S<sub>c</sub>=0时,意味着两分布矩阵完全负相关,认为对应分类器输出结果分布矩阵相似性最差;组合分类器中的各成员分类器分类正确率越高,同时它们之间的输出相似性越差,则此组合分类器的分类性能越好,即具有此特性的组合分类器,可以确保只有少数分类器对同一样本同时分类错误。
地址 210007 江苏省南京市白下区后标营18号