发明名称 一种基于改进的典型相关分析的零样本视频分类方法
摘要 一种基于改进的典型相关分析的零样本视频分类方法,包括:通过将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间,在这个公共空间中,视频的视觉特征和相应的语义特征具有良好的对应关系,对于新输入的测试视频,将它的视觉特征映射到公共空间,找到对应的语义特征,就可以确定测试视频的所属类别。本发明通过局部线性的方法达到解决非线性问题的目的,在零样本视频分类中可以取得更高的准确率,同时也能适应其他的多模态分类、检索问题。
申请公布号 CN106250925A 申请公布日期 2016.12.21
申请号 CN201610606117.3 申请日期 2016.07.25
申请人 天津大学 发明人 冀中;郭威辰
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 杜文茹
主权项 一种基于改进的典型相关分析的零样本视频分类方法,其特征在于,包括如下步骤:1)提取训练数据的视频特征X以及训练数据类别名称的语义特征Y;训练数据的视频特征X=[x<sub>1</sub>,x<sub>2</sub>,...,x<sub>n</sub>],其中n是训练数据的个数;训练数据类别名称的语义特征为Y=[y<sub>1</sub>,y<sub>2</sub>,...,y<sub>n</sub>]2)计算相似度矩阵S<sup>X</sup>,S<sup>Z</sup>训练类别名称的语义特征Z=[z<sub>1</sub>,z<sub>2</sub>,...,z<sub>t</sub>],其中t是训练集的类别数;3)依据相似度矩阵构建矩阵L<sup>X</sup>,D<sup>X</sup>以及L<sup>Z</sup>,D<sup>Z</sup>;4)求如下方程的特征值λ:<maths num="0001"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><mn>2</mn><msup><mi>&alpha;XL</mi><mi>X</mi></msup><msup><mi>X</mi><mi>T</mi></msup><msub><mi>w</mi><mi>x</mi></msub><mo>-</mo><msup><mi>YX</mi><mi>T</mi></msup><msub><mi>w</mi><mi>y</mi></msub><mo>=</mo><msub><mi>&lambda;</mi><mn>1</mn></msub><msup><mi>XX</mi><mi>T</mi></msup><msub><mi>w</mi><mi>x</mi></msub></mrow></mtd></mtr><mtr><mtd><mrow><mn>2</mn><msup><mi>&beta;ZL</mi><mi>Z</mi></msup><msup><mi>Z</mi><mi>T</mi></msup><msub><mi>w</mi><mi>y</mi></msub><mo>-</mo><msup><mi>YX</mi><mi>T</mi></msup><msub><mi>w</mi><mi>x</mi></msub><mo>=</mo><msub><mi>&lambda;</mi><mn>2</mn></msub><msup><mi>YY</mi><mi>T</mi></msup><msub><mi>w</mi><mi>y</mi></msub></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001058695740000011.GIF" wi="1230" he="165" /></maths>其中,α,β是权重系数,λ<sub>1</sub>,λ<sub>2</sub>是拉格朗日乘子,设λ=λ<sub>1</sub>=λ<sub>2</sub>,w<sub>x</sub>是从视觉空间到公共空间的映射矩阵;w<sub>y</sub>是从语义空间到公共空间的映射矩阵;根据公共空间的维数d,分别选择λ最大的d个特征值对应的d维特征向量,从而得到映射矩阵W<sub>x</sub>、W<sub>y</sub>;5)对于输入的测试数据,分别提取视频特征x',并映射到公共空间,得到<img file="FDA0001058695740000012.GIF" wi="131" he="86" />6)将所有候选的测试数据类别名称的语义特征映射到公共空间,得到<img file="FDA0001058695740000013.GIF" wi="227" he="71" />其中m是测试数据的类别数;7)在公共空间中,找出与<img file="FDA0001058695740000014.GIF" wi="100" he="63" />距离最近的<img file="FDA0001058695740000015.GIF" wi="115" he="69" />这个<img file="FDA0001058695740000016.GIF" wi="96" he="70" />所对应的类别就是测试数据的分类结果。
地址 300072 天津市南开区卫津路92号