基于属性层次的视音频融合方法,申请号CN201510082621.3-传众专利搜索

发明名称	基于属性层次的视音频融合方法
摘要	本发明涉及一种基于属性层次的视音频融合方法。包括以下步骤：1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库，实验数据库包括训练集和测试集；对训练集和测试集的视音频进行预处理；2】对预处理后的训练集数据进行属性特征提取；3】利用提取到的属性特征对测试集进行度量，得到分类结果。本发明提出了一种可以提高识别率，同时增强应用的可扩展性的基于属性层次的视音频融合方法。
申请公布号	CN105989370A	申请公布日期	2016.10.05
申请号	CN201510082621.3	申请日期	2015.02.15
申请人	中国科学院西安光学精密机械研究所	发明人	李学龙;卢孝强;胡迪
分类号	G06K9/62(2006.01)I;G10L15/02(2006.01)I;G10L25/51(2013.01)I	主分类号	G06K9/62(2006.01)I
代理机构	西安智邦专利商标代理有限公司 61211	代理人	倪金荣
主权项	一种基于属性层次的视音频融合方法，其特征在于：包括以下步骤：1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库，所述实验数据库包括训练集和测试集；对训练集和测试集的视音频进行预处理，预处理方法具体如下：1a]提取训练集与测试集的视频特征；所述视频特征采用密集轨迹特征和运动边界特征；并根据密集轨迹特征和运动边界特征组成视频数据；所述视频数据在帧的层次上进行密集采样，以保证特征点均等的覆盖所有的空间位置；1b]提取训练集与测试集的音频特征；所述音频特征在声音帧的层次上进行提取；一个音频会由多个特征进行联合表示，将多个特征组成一个矩阵；所述矩阵为音频数据；1c]聚类处理；对所有训练集中的视频特征和音频特征分别进行k‑means聚类，其结果为预处理后的训练集数据，具体公式如下：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msup><mi>C</mi><mi>A</mi></msup><mo>:</mo><mo>{</mo><msubsup><mi>c</mi><mn>1</mn><mi>A</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>2</mn><mi>A</mi></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>c</mi><mi>p</mi><mi>A</mi></msubsup><mo>}</mo></mrow>]]></math><img file="FDA0000673685080000011.GIF" wi="379" he="85" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msup><mi>C</mi><mi>V</mi></msup><mo>:</mo><mo>{</mo><msubsup><mi>c</mi><mn>1</mn><mi>V</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>2</mn><mi>V</mi></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>c</mi><mi>p</mi><mi>V</mi></msubsup><mo>}</mo></mrow>]]></math><img file="FDA0000673685080000012.GIF" wi="383" he="81" /></maths>其中，由于视觉信息量远大于听觉信息量，故而q>p；2】对预处理后的训练集数据进行属性特征提取；根据得到的预处理后的训练集数据，提出以下的目标表达式，通过对它进行优化，以得到有监督聚类后的视音频弱行为描述包，即若干聚类中心。<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><munder><mi>min</mi><mrow><mi>W</mi><mo>,</mo><msup><mi>C</mi><mi>A</mi></msup><mo>,</mo><msup><mi>C</mi><mi>V</mi></msup></mrow></munder><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mrow><mo>\|</mo><mo>\|</mo><mi>W</mi><mfenced open='[' close=']'><mtable><mtr><mtd><msup><mi>φ</mi><mi>A</mi></msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msup><mi>φ</mi><mi>V</mi></msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><msub><mi>y</mi><mi>i</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><msub><mi>β</mi><mn>1</mn></msub><mi>θ</mi><mrow><mo>(</mo><msubsup><mrow><mo>{</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mo>,</mo><msup><mi>C</mi><mi>A</mi></msup><mo>)</mo></mrow><mo>+</mo><msub><mi>β</mi><mn>2</mn></msub><mi>θ</mi><mrow><mo>(</mo><msubsup><mrow><mo>{</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mo>,</mo><msup><mi>C</mi><mi>V</mi></msup><mo>)</mo></mrow><mo>+</mo><mi>α</mi><msub><mrow><mo>\|</mo><mo>\|</mo><mi>W</mi><mo>\|</mo><mo>\|</mo></mrow><mn>2,1</mn></msub></mrow>]]></math><img file="FDA0000673685080000013.GIF" wi="1503" he="188" /></maths>其中，<img file="FDA0000673685080000014.GIF" wi="64" he="83" />和<img file="FDA0000673685080000015.GIF" wi="66" he="83" />是视音频训练行为描述包；C<sup>V</sup>和C<sup>A</sup>是视音频弱行为描述包；W是相应的线性分类超平面；β<sub>1</sub>，β<sub>2</sub>以及α是平衡系数；对W采取l<sub>2,1</sub>‑范式约束，使其既能满足能量约束，也同时能满足稀疏约束；其中的<img file="FDA0000673685080000021.GIF" wi="260" he="76" />函数用于获取聚类中心，即弱行为描述包，其具体如下：<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>θ</mi><mrow><mo>(</mo><msubsup><mrow><mo>{</mo><msub><mi>x</mi><mi>i</mi></msub><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><mo>,</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><munder><mi>min</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>n</mi></mrow></munder><mo>{</mo><mi>H</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>}</mo></mrow>]]></math><img file="FDA0000673685080000022.GIF" wi="679" he="142" /></maths>其中，<img file="FDA0000673685080000023.GIF" wi="128" he="74" />是相应的训练行为包；H(x<sub>i</sub>,c<sub>j</sub>)用以测量两包之间的豪斯多夫距离；对于每个x<sub>i</sub>需要找出与它豪斯多夫距离最小的聚类中心c<sub>j</sub>，通过对所有最短距离的求和及不断改变C来获得局部最小值；3】利用提取到的属性特征对测试集进行度量，得到分类结果，具体方法如下：3a]获取相似度；用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度，具体如下：<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>φ</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>)</mo></mrow><mo>=</mo><mo>[</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>1</mn><mi>A</mi></msubsup><mo>)</mo></mrow><mo>,</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>2</mn><mi>A</mi></msubsup><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mi>p</mi><mi>A</mi></msubsup><mo>)</mo></mrow><mo>]</mo></mrow>]]></math><img file="FDA0000673685080000024.GIF" wi="844" he="92" /></maths><maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>φ</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>)</mo></mrow><mo>=</mo><mo>[</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>1</mn><mi>V</mi></msubsup><mo>)</mo></mrow><mo>,</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>2</mn><mi>V</mi></msubsup><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mi>p</mi><mi>V</mi></msubsup><mo>)</mo></mrow><mo>]</mo></mrow>]]></math><img file="FDA0000673685080000025.GIF" wi="844" he="92" /></maths>上式中，<img file="FDA0000673685080000026.GIF" wi="130" he="80" />和<img file="FDA0000673685080000027.GIF" wi="128" he="84" />用以度量待检测行为包和每个弱行为描述包间的相似度，并且是已进行归一化后的距离，而下式用于度量高斯分布下两包的相似度：s(x<sub>i</sub>,c<sub>j</sub>)＝exp(‑H(x<sub>i</sub>,c<sub>j</sub>)<sup>2</sup>/δ)其中，δ是在所有弱行为描述包间的平均豪斯多夫距离；3b]获取分类结果；将上述获取的相似度度量结果<img file="FDA0000673685080000028.GIF" wi="166" he="94" />和<img file="FDA0000673685080000029.GIF" wi="162" he="93" />和优化目标表达式所得到的超平面W共同带入下式：<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mi>W</mi><mfenced open='[' close=']'><mtable><mtr><mtd><msup><mi>φ</mi><mi>A</mi></msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msup><mi>φ</mi><mi>V</mi></msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA00006736850800000210.GIF" wi="343" he="159" /></maths>其中，y<sub>i</sub>为对于测试视频的分类结果。
地址	710119 陕西省西安市高新区新型工业园信息大道17号