主权项 |
1.一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤:步骤1:将确定类型并经过标注的音频序列作为训练序列;步骤2:提取训练序列中的音频信号的短时特征F<sub>1</sub>,F<sub>2</sub>,…,F<sub>K</sub>,构成短时特征向量<maths num="0001"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>→</mo></mover><mi>S</mi></msub><mo>=</mo><mfenced open='[' close=']'><mtable><mtr><mtd><msub><mi>F</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msub><mi>F</mi><mn>2</mn></msub></mtd></mtr><mtr><mtd><mo>·</mo></mtd></mtr><mtr><mtd><mo>·</mo></mtd></mtr><mtr><mtd><mo>·</mo></mtd></mtr><mtr><mtd><msub><mi>F</mi><mi>K</mi></msub></mtd></mtr></mtable></mfenced><mo>,</mo></mrow></math>]]></maths>K是短时特征向量的分量个数;步骤3:计算各个短时特征F<sub>k</sub>在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征F<sub>k</sub>对应一组由该短时特征的统计参量构成的统计特征向量<img file="FDA00003422979400012.GIF" wi="191" he="87" />进而短时特征向量<img file="FDA00003422979400013.GIF" wi="54" he="86" />对应一个统计特征向量<img file="FDA00003422979400014.GIF" wi="189" he="85" />其中<maths num="0002"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='[' close=']'><mtable><mtr><mtd><msub><mover><mi>L</mi><mo>→</mo></mover><mn>1</mn></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mover><mi>L</mi><mo>→</mo></mover><mn>2</mn></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mo>·</mo></mtd></mtr><mtr><mtd><mo>·</mo></mtd></mtr><mtr><mtd><mo>·</mo></mtd></mtr><mtr><mtd><msub><mover><mi>L</mi><mo>→</mo></mover><mi>K</mi></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>1≤k≤K;步骤4:选取P个值,N<sub>1</sub>,N<sub>2</sub>,…,N<sub>P</sub>满足N<sub>1</sub><N<sub>2</sub><...<N<sub>P</sub>,令n分别等于N<sub>1</sub>,N<sub>2</sub>,…,N<sub>P</sub>,按照步骤3计算得到短时特征向量<img file="FDA00003422979400016.GIF" wi="60" he="83" />对应的一组统计特征向量<img file="FDA00003422979400017.GIF" wi="743" he="87" />由该组统计特征向量构成训练序列的长时特征向量<maths num="0003"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>→</mo></mover><mi>F</mi></msub><mo>=</mo><msup><mrow><mo>[</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mi>P</mi></msub><mo>)</mo></mrow><mo>]</mo></mrow><mi>T</mi></msup><mo>;</mo></mrow></math>]]></maths>步骤5:利用训练序列的长时特征向量<img file="FDA00003422979400019.GIF" wi="64" he="82" />训练分类器;步骤6:提取测试序列中的音频信号的短时特征,并按照步骤2和步骤3的方法计算测试序列的第i帧的统计特征向量<img file="FDA000034229794000110.GIF" wi="115" he="83" />以及测试序列的<img file="FDA000034229794000111.GIF" wi="183" he="84" /><maths num="0004"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi></msub><mrow><mo>(</mo><msub><mi>N</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi></msub><mrow><mo>(</mo><msub><mi>N</mi><mi>P</mi></msub><mo>)</mo></mrow><mtext>;</mtext></mrow></math>]]></maths>步骤7:根据测试序列的第i帧的统计特征向量<img file="FDA00003422979400022.GIF" wi="106" he="84" />以及测试序列的<img file="FDA00003422979400023.GIF" wi="184" he="85" /><img file="FDA00003422979400024.GIF" wi="528" he="85" />计算测试序列的第i帧的输入长时特征向量<img file="FDA00003422979400025.GIF" wi="163" he="89" />计算测试序列的第i帧的输入长时特征向量<img file="FDA00003422979400026.GIF" wi="144" he="91" />具体利用公式<maths num="0005"><![CDATA[<math><mrow><msub><mover><mi>V</mi><mo>→</mo></mover><mi>IN</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><msup><mrow><mo>[</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>]</mo></mrow><mi>T</mi></msup><mo>,</mo></mtd></mtr><mtr><mtd><msup><mrow><mo>[</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mi>q</mi></msub><mo>)</mo></mrow><mo>,</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>]</mo></mrow><mi>T</mi></msup><mo>,</mo></mtd></mtr><mtr><mtd><msub><mover><mi>V</mi><mo>→</mo></mover><mi>F</mi></msub><mo>,</mo></mtd></mtr></mtable></mfenced></mrow></math>]]></maths><maths num="0006"><![CDATA[<math><mfenced open='' close='' separators=''><mtable><mtr><mtd><mi>i</mi><mo><</mo><msub><mi>N</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><msub><mi>N</mi><mn>1</mn></msub><mo><</mo></mtd></mtr><mtr><mtd><mi>i</mi><mo>≥</mo><msub><mi>N</mi><mi>P</mi></msub></mtd></mtr></mtable><mrow><mo>.</mo><mo>.</mo><mo>.</mo><mo><</mo><msub><mi>N</mi><mi>q</mi></msub><mo>≤</mo><mi>i</mi><mo><</mo><msub><mi>N</mi><mrow><mi>q</mi><mo>+</mo><mn>1</mn></mrow></msub><mo><</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo><</mo><msub><mi>N</mi><mi>P</mi></msub></mrow></mfenced></math>]]></maths>其中,q=1,2,…,P-1,<img file="FDA00003422979400029.GIF" wi="371" he="86" />中的<img file="FDA000034229794000210.GIF" wi="128" he="85" />共有q个,<maths num="0007"><![CDATA[<math><msup><mrow><mo>[</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><msub><mi>N</mi><mi>q</mi></msub><mo>)</mo></mrow><mo>,</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mover><mi>V</mi><mo>→</mo></mover><mi>L</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>]</mo></mrow><mi>T</mi></msup></math>]]></maths>中的<img file="FDA000034229794000212.GIF" wi="118" he="87" />共有P-q个;步骤8:将第i帧的输入长时特征向量<img file="FDA000034229794000213.GIF" wi="134" he="89" />送入步骤5训练后的分类器中,其输出即为第i帧的分类类型。 |