发明名称 基于情感对特征优化的语音情感分类方法
摘要 本发明公布了一种基于情感对特征优化的语音情感分类方法,包括如下步骤:(1)采集喜、怒、惊、悲,和平静五种基本情感状态的语音数据;(2)语音情感特征提取;(3)情感对的配对;(4)特征压缩与特征选择:(4-1)线性判别分析(LDA)降维;使用每个情感对各自的投影向量,分别进行各自的LDA变换;(4-2)基于fisher判别准则的特征选择方法;(5)基于两类分类器组的判决融合:(5-1)记输入的情感语音数据(5-2)两类分类器的判决输出Ci,j;(5-3)每个两类分类器的置信度wi,j,用式(3)来得到:(5-4)用相关译码的方法来进行判决:最大的相关值对应的情感类别,即为识别结果。
申请公布号 CN101894550A 申请公布日期 2010.11.24
申请号 CN201010230514.8 申请日期 2010.07.19
申请人 东南大学 发明人 赵力;黄程韦;邹采荣;余华;王开
分类号 G10L15/02(2006.01)I;G10L15/06(2006.01)I;G10L15/08(2006.01)I 主分类号 G10L15/02(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 许方
主权项 1.一种基于情感对特征优化的语音情感分类方法,包括如下步骤:(1)采集喜、怒、惊、悲,和平静五种基本情感状态的语音数据;(2)语音情感特征提取;(3)情感对的配对;其特征在于还包括如下步骤:(4)特征压缩与特征选择:(4-1)线性判别分析(LDA)降维,分别通过每个情感对的类内、类间离散度矩阵来计算各自的投影变换向量;使用每个情感对各自的投影向量,分别进行各自的LDA变换;(4-2)基于fisher判别准则的特征选择方法Fisher判别准则如式(1)所示:<maths num="0001"><![CDATA[<math><mrow><mi>f</mi><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mrow><mo>(</mo><msub><mi>&mu;</mi><mrow><mn>1</mn><mi>d</mi></mrow></msub><mo>-</mo><msub><mi>&mu;</mi><mrow><mn>2</mn><mi>d</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><mrow><msubsup><mi>&sigma;</mi><mrow><mn>1</mn><mi>d</mi></mrow><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>&sigma;</mi><mrow><mn>2</mn><mi>d</mi></mrow><mn>2</mn></msubsup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中μ<sub>1d</sub>、μ<sub>2d</sub>为第d个维度两个类别的特征值的均值,<img file="FSA00000196124100012.GIF" wi="86" he="58" /><img file="FSA00000196124100013.GIF" wi="68" he="59" />为第d个维度两个类别的特征值的方差;(5)基于两类分类器组的判决融合:(5-1)记输入的情感语音数据,经过步骤(4)特征选择后构成待识别的样本矢量为X,一个两类分类器识别的情感为第i个情感与第j个情感,则通过GMM模型得到的GMM似然度为,P(X|λ<sub>i</sub>),P(X|λ<sub>i</sub>),其中λ<sub>i</sub>,λ<sub>j</sub>为两种情感的GMM模型的参数;(5-2)两类分类器的判决输出C<sub>i,j</sub>为:<maths num="0002"><![CDATA[<math><mrow><msub><mi>C</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>i</mi></mtd><mtd><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>&lambda;</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&GreaterEqual;</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>&lambda;</mi><mi>j</mi></msub><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mi>j</mi><mo>,</mo></mtd><mtd><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>&lambda;</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&le;</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>&lambda;</mi><mi>j</mi></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>(5-3)每个两类分类器的置信度w<sub>i,j</sub>,用式(3)来得到:<maths num="0003"><![CDATA[<math><mrow><msub><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mn>2</mn><mo>&times;</mo><mfrac><mrow><mo>|</mo><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>&lambda;</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>&lambda;</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>&lambda;</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>&lambda;</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>(5-4)用相关译码的方法来进行判决:即:每个两类分类器的输出值构成列向量C,设定的情感码字记为矩阵I<sub>m×n</sub>,m为分类器的个数,n为情感类别数。输出值与码字间的距离即为相关值r<sub>i</sub>,i=1,2,…n,通过式(4)得到,R<sup>T</sup>=C<sup>T</sup>·I<sub>m×n</sub>         (4)其中,R={r<sub>1</sub>,r<sub>2</sub>,…,r<sub>n</sub>},每个分量与一种情感对应。最大的相关值对应的情感类别,即为识别结果,i<sup>*</sup>=arg max{r<sub>i</sub>}       (5)i<sup>*</sup>表示识别出的情感类别的标号。
地址 215123 江苏省苏州市工业园区独墅湖高教区林泉街399号