主权项 |
一种基于改进的典型相关分析的零样本视频分类方法,其特征在于,包括如下步骤:1)提取训练数据的视频特征X以及训练数据类别名称的语义特征Y;训练数据的视频特征X=[x<sub>1</sub>,x<sub>2</sub>,...,x<sub>n</sub>],其中n是训练数据的个数;训练数据类别名称的语义特征为Y=[y<sub>1</sub>,y<sub>2</sub>,...,y<sub>n</sub>]2)计算相似度矩阵S<sup>X</sup>,S<sup>Z</sup>训练类别名称的语义特征Z=[z<sub>1</sub>,z<sub>2</sub>,...,z<sub>t</sub>],其中t是训练集的类别数;3)依据相似度矩阵构建矩阵L<sup>X</sup>,D<sup>X</sup>以及L<sup>Z</sup>,D<sup>Z</sup>;4)求如下方程的特征值λ:<maths num="0001"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><mn>2</mn><msup><mi>αXL</mi><mi>X</mi></msup><msup><mi>X</mi><mi>T</mi></msup><msub><mi>w</mi><mi>x</mi></msub><mo>-</mo><msup><mi>YX</mi><mi>T</mi></msup><msub><mi>w</mi><mi>y</mi></msub><mo>=</mo><msub><mi>λ</mi><mn>1</mn></msub><msup><mi>XX</mi><mi>T</mi></msup><msub><mi>w</mi><mi>x</mi></msub></mrow></mtd></mtr><mtr><mtd><mrow><mn>2</mn><msup><mi>βZL</mi><mi>Z</mi></msup><msup><mi>Z</mi><mi>T</mi></msup><msub><mi>w</mi><mi>y</mi></msub><mo>-</mo><msup><mi>YX</mi><mi>T</mi></msup><msub><mi>w</mi><mi>x</mi></msub><mo>=</mo><msub><mi>λ</mi><mn>2</mn></msub><msup><mi>YY</mi><mi>T</mi></msup><msub><mi>w</mi><mi>y</mi></msub></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001058695740000011.GIF" wi="1230" he="165" /></maths>其中,α,β是权重系数,λ<sub>1</sub>,λ<sub>2</sub>是拉格朗日乘子,设λ=λ<sub>1</sub>=λ<sub>2</sub>,w<sub>x</sub>是从视觉空间到公共空间的映射矩阵;w<sub>y</sub>是从语义空间到公共空间的映射矩阵;根据公共空间的维数d,分别选择λ最大的d个特征值对应的d维特征向量,从而得到映射矩阵W<sub>x</sub>、W<sub>y</sub>;5)对于输入的测试数据,分别提取视频特征x',并映射到公共空间,得到<img file="FDA0001058695740000012.GIF" wi="131" he="86" />6)将所有候选的测试数据类别名称的语义特征映射到公共空间,得到<img file="FDA0001058695740000013.GIF" wi="227" he="71" />其中m是测试数据的类别数;7)在公共空间中,找出与<img file="FDA0001058695740000014.GIF" wi="100" he="63" />距离最近的<img file="FDA0001058695740000015.GIF" wi="115" he="69" />这个<img file="FDA0001058695740000016.GIF" wi="96" he="70" />所对应的类别就是测试数据的分类结果。 |