主权项 |
一种基于张量量化的动作识别方法,其特征在于,包括如下步骤:1)将原始的视频序列表征为一个三阶视频序列张量<img file="FDA0001138936530000011.GIF" wi="259" he="54" />其中I<sub>1</sub>,I<sub>2</sub>和K分别表示为一个视频序列的宽度、高度和时间轴的长度;2)对视频序列张量A进行Tucker‑2分解获得空域维度减少的核张量,包括:将视频序列张量<img file="FDA0001138936530000012.GIF" wi="259" he="55" />表示成一个低阶的核张量<img file="FDA0001138936530000013.GIF" wi="266" he="55" />J<sub>1</sub><I<sub>1</sub>,J<sub>2</sub><I<sub>2</sub>,找到两个映射矩阵<img file="FDA0001138936530000014.GIF" wi="227" he="55" />和<img file="FDA0001138936530000015.GIF" wi="267" he="55" />将最初的视频序列张量A展开为用Tucker‑2分解的视频序列张量A=G×<sub>1</sub>U<sup>(1)</sup>×<sub>2</sub>U<sup>(2)</sup>+ε,G是核张量也就是所要求的新张量,ε是误差,最小化以下的目标函数,求解出所要寻找的维度减少的核张量G和映射矩阵U<sup>(1)</sup>和U<sup>(2)</sup>:<maths num="0001"><math><![CDATA[<mrow><mtable><mtr><mtd><munder><mi>min</mi><mrow><mi>G</mi><mo>,</mo><msup><mi>U</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo>,</mo><msup><mi>U</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup></mrow></munder></mtd><mtd><mrow><mo>|</mo><mo>|</mo><mi>A</mi><mo>-</mo><mi>G</mi><msub><mo>×</mo><mn>1</mn></msub><msup><mi>U</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><msub><mo>×</mo><mn>2</mn></msub><msup><mi>U</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup></mrow></mtd></mtr><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msup><mi>U</mi><msup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mi>T</mi></msup></msup><msup><mi>U</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo>=</mo><mi>I</mi><mo>,</mo><msup><mi>U</mi><msup><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow><mi>T</mi></msup></msup><msup><mi>U</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup><mo>=</mo><mi>I</mi></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0001138936530000016.GIF" wi="1214" he="189" /></maths>3)应用张量量化技术将空域维度减少的核张量编码到统一的长度;4)动态学习以上的步骤更新结果直到算法收敛结果达到最优。 |