发明名称 基于可变时长的音频特征分类方法
摘要 本发明公开了多媒体信号处理和模式识别技术领域中的一种基于可变时长的音频特征分类方法。包括将确定类型并经过标注的音频序列作为训练序列;提取训练序列中的音频信号的短时特征构成短时特征向量;计算各个短时特征在设定时长内的统计参量,进而得到短时特征向量对应的统计特征向量;计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量;利用训练序列的长时特征向量训练分类器;提取测试序列中第i帧的音频信号的短时特征并计算测试序列的第i帧的输入长时特征向量;将第i帧的输入长时特征向量送入训练后的分类器中,得到分类类型。本发明避免提取长时特征导致的延时问题,实现了音频特征的实时分类。
申请公布号 CN102623007B 申请公布日期 2014.01.01
申请号 CN201110033410.2 申请日期 2011.01.30
申请人 清华大学 发明人 卢敏;窦维蓓
分类号 G10L15/06(2013.01)I;G10L15/08(2006.01)I 主分类号 G10L15/06(2013.01)I
代理机构 北京众合诚成知识产权代理有限公司 11246 代理人 童晓琳
主权项 1.一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤:步骤1:将确定类型并经过标注的音频序列作为训练序列;步骤2:提取训练序列中的音频信号的短时特征F<sub>1</sub>,F<sub>2</sub>,…,F<sub>K</sub>,构成短时特征向量<maths num="0001"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>S</mi></msub><mo>=</mo><mfenced open='[' close=']'><mtable><mtr><mtd><msub><mi>F</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msub><mi>F</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><msub><mi>F</mi><mi>K</mi></msub></mtd></mtr></mtable></mfenced><mo>,</mo></mrow></math>]]></maths>K是短时特征向量的分量个数;步骤3:计算各个短时特征F<sub>k</sub>在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征F<sub>k</sub>对应一组由该短时特征的统计参量构成的统计特征向量<img file="FDA00003422979400012.GIF" wi="191" he="87" />进而短时特征向量<img file="FDA00003422979400013.GIF" wi="54" he="86" />对应一个统计特征向量<img file="FDA00003422979400014.GIF" wi="189" he="85" />其中<maths num="0002"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='[' close=']'><mtable><mtr><mtd><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mn>1</mn></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mn>2</mn></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mi>K</mi></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>1≤k≤K;步骤4:选取P个值,N<sub>1</sub>,N<sub>2</sub>,…,N<sub>P</sub>满足N<sub>1</sub>&lt;N<sub>2</sub>&lt;...&lt;N<sub>P</sub>,令n分别等于N<sub>1</sub>,N<sub>2</sub>,…,N<sub>P</sub>,按照步骤3计算得到短时特征向量<img file="FDA00003422979400016.GIF" wi="60" he="83" />对应的一组统计特征向量<img file="FDA00003422979400017.GIF" wi="743" he="87" />由该组统计特征向量构成训练序列的长时特征向量<maths num="0003"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>F</mi></msub><mo>=</mo><msup><mrow><mo>&lsqb;</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mi>P</mi></msub><mo>)</mo></mrow><mo>&rsqb;</mo></mrow><mi>T</mi></msup><mo>;</mo></mrow></math>]]></maths>步骤5:利用训练序列的长时特征向量<img file="FDA00003422979400019.GIF" wi="64" he="82" />训练分类器;步骤6:提取测试序列中的音频信号的短时特征,并按照步骤2和步骤3的方法计算测试序列的第i帧的统计特征向量<img file="FDA000034229794000110.GIF" wi="115" he="83" />以及测试序列的<img file="FDA000034229794000111.GIF" wi="183" he="84" /><maths num="0004"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi></msub><mrow><mo>(</mo><msub><mi>N</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi></msub><mrow><mo>(</mo><msub><mi>N</mi><mi>P</mi></msub><mo>)</mo></mrow><mtext>;</mtext></mrow></math>]]></maths>步骤7:根据测试序列的第i帧的统计特征向量<img file="FDA00003422979400022.GIF" wi="106" he="84" />以及测试序列的<img file="FDA00003422979400023.GIF" wi="184" he="85" /><img file="FDA00003422979400024.GIF" wi="528" he="85" />计算测试序列的第i帧的输入长时特征向量<img file="FDA00003422979400025.GIF" wi="163" he="89" />计算测试序列的第i帧的输入长时特征向量<img file="FDA00003422979400026.GIF" wi="144" he="91" />具体利用公式<maths num="0005"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>IN</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><msup><mrow><mo>&lsqb;</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&rsqb;</mo></mrow><mi>T</mi></msup><mo>,</mo></mtd></mtr><mtr><mtd><msup><mrow><mo>&lsqb;</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mi>q</mi></msub><mo>)</mo></mrow><mo>,</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&rsqb;</mo></mrow><mi>T</mi></msup><mo>,</mo></mtd></mtr><mtr><mtd><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>F</mi></msub><mo>,</mo></mtd></mtr></mtable></mfenced></mrow></math>]]></maths><maths num="0006"><![CDATA[<math><mfenced open='' close='' separators=''><mtable><mtr><mtd><mi>i</mi><mo>&lt;</mo><msub><mi>N</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msub><mi>N</mi><mn>1</mn></msub><mo>&lt;</mo></mtd></mtr><mtr><mtd><mi>i</mi><mo>&GreaterEqual;</mo><msub><mi>N</mi><mi>P</mi></msub></mtd></mtr></mtable><mrow><mo>.</mo><mo>.</mo><mo>.</mo><mo>&lt;</mo><msub><mi>N</mi><mi>q</mi></msub><mo>&le;</mo><mi>i</mi><mo>&lt;</mo><msub><mi>N</mi><mrow><mi>q</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>&lt;</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>&lt;</mo><msub><mi>N</mi><mi>P</mi></msub></mrow></mfenced></math>]]></maths>其中,q=1,2,…,P-1,<img file="FDA00003422979400029.GIF" wi="371" he="86" />中的<img file="FDA000034229794000210.GIF" wi="128" he="85" />共有q个,<maths num="0007"><![CDATA[<math><msup><mrow><mo>&lsqb;</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mi>q</mi></msub><mo>)</mo></mrow><mo>,</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&rsqb;</mo></mrow><mi>T</mi></msup></math>]]></maths>中的<img file="FDA000034229794000212.GIF" wi="118" he="87" />共有P-q个;步骤8:将第i帧的输入长时特征向量<img file="FDA000034229794000213.GIF" wi="134" he="89" />送入步骤5训练后的分类器中,其输出即为第i帧的分类类型。
地址 100084 北京市海淀区100084-82信箱