发明名称 基于多模态判别分析的零样本图像分类方法
摘要 一种基于多模态判别分析的零样本图像分类方法,包括:使用训练数据的视觉特征以及相应类别的语义特征构建矩阵;得到映射矩阵;在验证集中学得到权重α<sub>i</sub>;使用映射矩阵,将测试数据的视觉特征和未见过的类别的语义特征映射至公共空间;对测试数据进行分类。本发明能够寻求图像的视觉特征与多个模态的语义特征之间的公共空间,在零样本图像分类中可以取得更高的准确率,因此是一种有效的零样本图像分类方法。本发明的方法简单易行,效果优良。除了零样本图像分类问题,同时也能适应其他的多模态分类、检索问题。
申请公布号 CN105740879A 申请公布日期 2016.07.06
申请号 CN201610026972.7 申请日期 2016.01.15
申请人 天津大学 发明人 冀中;谢于中
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 杜文茹
主权项 一种基于多模态判别分析的零样本图像分类方法,其特征在于,包括如下步骤:1)使用训练数据的视觉特征X<sub>1</sub>以及相应类别的语义特征X<sub>2</sub>,...X<sub>c</sub>构建矩阵S和D,其中,<img file="FDA0000907527470000019.GIF" wi="418" he="236" /><maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>S</mi><mi>jr</mi></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>ij</mi></msub></munderover><msub><mi>x</mi><mi>ijk</mi></msub><msup><msub><mi>x</mi><mi>ijk</mi></msub><mi>T</mi></msup><mo>-</mo><mfrac><mrow><msub><mi>n</mi><mi>ij</mi></msub><msub><mi>n</mi><mi>ir</mi></msub></mrow><msub><mi>n</mi><mi>i</mi></msub></mfrac><msubsup><mi>&mu;</mi><mi>ij</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup><msubsup><mi>&mu;</mi><mi>ij</mi><mrow><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mi>T</mi></mrow></msubsup><mo>)</mo></mrow><mo>,</mo><mi>j</mi><mo>=</mo><mi>r</mi></mtd></mtr><mtr><mtd><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><mfrac><mrow><msub><mi>n</mi><mi>ij</mi></msub><msub><mi>n</mi><mi>ir</mi></msub></mrow><msub><mi>n</mi><mi>i</mi></msub></mfrac><msubsup><mi>&mu;</mi><mi>ij</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup><msubsup><mi>&mu;</mi><mi>ir</mi><mrow><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mi>T</mi></mrow></msubsup><mo>,</mo><mi>j</mi><mo>&NotEqual;</mo><mi>r</mi></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mtext>1</mtext><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000907527470000011.GIF" wi="1023" he="296" /></maths><img file="FDA00009075274700000110.GIF" wi="422" he="235" /><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>D</mi><mi>jr</mi></msub><mo>=</mo><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><mfrac><mrow><msub><mi>n</mi><mi>ij</mi></msub><msub><mi>n</mi><mi>ir</mi></msub></mrow><msub><mi>n</mi><mi>i</mi></msub></mfrac><mrow><msubsup><mi>&mu;</mi><mi>ij</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup><msubsup><mi>&mu;</mi><mi>ij</mi><mrow><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mi>T</mi></mrow></msubsup></mrow><mo>)</mo></mrow><mo>-</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><msub><mi>n</mi><mi>ij</mi></msub><msubsup><mi>&mu;</mi><mi>ij</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><msup><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><msub><mi>n</mi><mi>ij</mi></msub><msubsup><mi>&mu;</mi><mi>ij</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mi>T</mi></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000907527470000012.GIF" wi="1054" he="140" /></maths>式中,x为视觉特征矩阵或语义特征矩阵中的向量,i表示类别序号,j表示模态序号,k表示样本序号,c表示类别的总数,n表示样本的总数,<img file="FDA0000907527470000013.GIF" wi="72" he="75" />表示为:<img file="FDA0000907527470000014.GIF" wi="331" he="161" />2)求下式,得到映射矩阵W:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><msub><mi>W</mi><mn>1</mn></msub><mo>,</mo><msub><mi>W</mi><mn>2</mn></msub><mo>,</mo><mo>...</mo><msub><mi>W</mi><mi>v</mi></msub></mrow></munder><mi>T</mi><mi>r</mi><mrow><mo>(</mo><mfrac><mrow><msup><mi>W</mi><mi>T</mi></msup><mi>D</mi><mi>W</mi></mrow><mrow><msup><mi>W</mi><mi>T</mi></msup><mi>S</mi><mi>W</mi></mrow></mfrac><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000907527470000015.GIF" wi="1027" he="129" /></maths>3)在验证集中学习得到下式中的权重α<sub>i</sub><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msup><mi>k</mi><mo>*</mo></msup><mo>=</mo><munder><mi>argmax</mi><mi>k</mi></munder><mo>&lsqb;</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>2</mn></mrow><mi>c</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msubsup><mi>W</mi><mn>1</mn><mi>T</mi></msubsup><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><msubsup><mi>W</mi><mi>i</mi><mi>T</mi></msubsup><msubsup><mi>y</mi><mi>i</mi><mi>k</mi></msubsup><mo>)</mo></mrow><mo>&rsqb;</mo><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000907527470000016.GIF" wi="1154" he="128" /></maths>k=1,2,...,n.式中,x<sub>j</sub>是验证数据的视觉特征,<img file="FDA0000907527470000017.GIF" wi="59" he="70" />是与x<sub>j</sub>相对应类别的第k个模态的语义特征,sim(a,b)=a<sup>T</sup>b/(||a||·||b||),为两个向量的距离;4)使用映射矩阵W,将测试数据的视觉特征<img file="FDA0000907527470000018.GIF" wi="46" he="64" />和未见过的类别的语义特征y<sup>k</sup>映射至公共空间;5)用步骤3)中的公式对测试数据进行分类,式中的k<sup>*</sup>是测试数据相应的类别。
地址 300072 天津市南开区卫津路92号