主权项 |
1.一种基于提升稀疏约束双线性模型的图像分类方法,其特征在于,该方法图像分类的步骤如下:步骤S1:在图像上提取图像的局部特征;步骤S2:从图像上密集的提取多个部件;在每幅图上抽取20×15个部件,每个部件是一个64×64像素的正方形区域;步骤S3:将各个部件部件内的用视觉词的直方图作为部件的特征表示,将每个部件直方图h<sub>j</sub>的定义为:h<sub>j</sub>=[h<sub>1,j</sub>,h<sub>2,j</sub>,...,h<sub>N,j</sub>]' (1)其中,N代表部件内的视觉词的个数,h<sub>j</sub>是一个N×l的直方图,其中每一维的元素h<sub>i,j</sub>正比于第i个视觉词在第j个部件里面出现的次数,并满足<img file="FDA0000368422940000011.GIF" wi="239" he="89" />;i=1,2,...,N,j=1,2,...,M,M代表部件的个数;在把每个部件用直方图表示以后,将各个部件的直方图h<sub>j</sub>,按顺序排列起来,将第k个图像表示成一个N×M的矩阵H<sup>k</sup>:H<sup>k</sup>=[h<sub>1</sub>,h<sub>2</sub>,...,h<sub>M</sub>] (2)得到了最终的基于部件的图像表示,k=1,2,...,K,K代表图像中的训练图像的个数;步骤S4:使用提升稀疏约束双线性模型模拟视觉词到部件、部件到图像类别之间的关系,即设每个部件都对图像的类别预测有贡献,采用线性模型去拟合每个部件对图像的类别预测的这种联系;同时,设每个部件中的每个视觉词对所述部件的类别也有贡献,也采用线性模型来拟合每个部件中的每个视觉词对所述部件的类别的这种联系,从而将图像类别预测问题转化为学习一个双线性模型的问题,即学习α,β,使得:f(H<sup>k</sup>)=y<sup>k</sup>=α'H<sup>k</sup>β (3)其中,y<sup>k</sup>代表对第k个图像的预测值,f(H<sup>k</sup>)=α'H<sup>k</sup>β代表要学习的双线性模型;α是一个N×l维的系数向量,β是一个M×l维的系数向量;为了选择最有判别力的视觉词和部件,从而更好的进行图像分类,对双线性模型的两个系数向量α,β施加稀疏性的约束,通过优化以下的目标函数实现组合要学习的提升稀疏约束的双线性模型表示如下:<![CDATA[<math><mrow><msub><mi>F</mi><mi>T</mi></msub><mrow><mo>(</mo><mi>H</mi><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi>min</mi></mrow><mrow><msub><mi>F</mi><mi>T</mi></msub><mrow><mo>(</mo><mi>H</mi><mo>)</mo></mrow></mrow></munder><msubsup><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></msubsup><mi>exp</mi><mo>[</mo><mo>-</mo><msup><mi>y</mi><mi>k</mi></msup><mo>×</mo><msub><mi>F</mi><mi>T</mi></msub><mrow><mo>(</mo><msup><mi>H</mi><mi>k</mi></msup><mo>)</mo></mrow><mo>]</mo><mo>+</mo><msub><mi>c</mi><mn>1</mn></msub><msubsup><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><mo>|</mo><mo>|</mo><msub><mi>α</mi><mi>t</mi></msub><mo>|</mo><msub><mo>|</mo><mn>1</mn></msub><mo>+</mo><msub><mi>c</mi><mn>2</mn></msub><msubsup><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msub><mrow><mo>|</mo><mo>|</mo><msub><mi>β</mi><mi>t</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>1</mn></msub><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<![CDATA[<math><mrow><msub><mi>F</mi><mi>T</mi></msub><mrow><mo>(</mo><mi>H</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msub><mi>f</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>H</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>f</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>H</mi><mo>)</mo></mrow><mo>=</mo><msup><mi>α</mi><mo>'</mo></msup><mi>Hβ</mi><mo>;</mo></mrow></math>]]></maths>T代表双线性模型的个数,K代表训练图像的个数;c<sub>1</sub>,c<sub>2</sub>是两个控制稀疏程度的系数;H代表训练图像,f<sub>t</sub>(H)=,α'Hβ代表要学习的第t个双线性模型,α<sub>t</sub>和β<sub>t</sub>是第t个双线性模型对应的参数,α<sub>t</sub>'代表α<sub>t</sub>的转置;<img file="FDA0000368422940000023.GIF" wi="422" he="93" />代表要学习的提升稀疏约束的双线性模型,提升稀疏约束的双线性模型是由T个双线性模型组成。 |