主权项 |
一种用于语音情感识别的自学习语谱图特征提取方法,其特征在于:包括以下步骤:(1)、对已知情感的标准语料库中的语音进行预处理,得到量化后的语谱图灰度图像;(2)、计算步骤(1)所得到的语谱图灰度图像的Gabor语谱图;(3)、采用可辨别特征学习算法对步骤(2)提取到的LBP统计直方图进行训练,构建不同尺度、不同方向下的全局显著性模式集合,记为<img file="FDA0000769054510000011.GIF" wi="324" he="85" />(4)、采用步骤(3)中的全局显著性模式<img file="FDA0000769054510000012.GIF" wi="296" he="85" />对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择,得到处理后的统计直方图<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msubsup><mi>f</mi><mrow><mi>m</mi><mi>a</mi><mi>p</mi></mrow><mn>1</mn></msubsup><mo>,</mo><msubsup><mi>f</mi><mrow><mi>m</mi><mi>a</mi><mi>p</mi></mrow><mn>2</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>f</mi><mrow><mi>m</mi><mi>a</mi><mi>p</mi></mrow><mi>N</mi></msubsup><mo>,</mo></mrow>]]></math><img file="FDA0000769054510000013.GIF" wi="393" he="90" /></maths>将N个统计直方图级联<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mover><msub><mi>f</mi><mrow><mi>m</mi><mi>a</mi><mi>p</mi></mrow></msub><mo>^</mo></mover><mo>=</mo><mo>[</mo><msubsup><mi>f</mi><mrow><mi>m</mi><mi>a</mi><mi>p</mi></mrow><mn>1</mn></msubsup><mo>,</mo><msubsup><mi>f</mi><mrow><mi>m</mi><mi>a</mi><mi>p</mi></mrow><mn>2</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>f</mi><mrow><mi>m</mi><mi>a</mi><mi>p</mi></mrow><mi>N</mi></msubsup><mo>]</mo><mo>,</mo></mrow>]]></math><img file="FDA0000769054510000014.GIF" wi="564" he="113" /></maths>得到适合情感分类的语音情感特征。 |