基于情感对特征优化的语音情感分类方法,申请号CN201010230514.8-传众专利搜索

发明名称	基于情感对特征优化的语音情感分类方法
摘要	本发明公布了一种基于情感对特征优化的语音情感分类方法，包括如下步骤：(1)采集喜、怒、惊、悲，和平静五种基本情感状态的语音数据；(2)语音情感特征提取；(3)情感对的配对；(4)特征压缩与特征选择：(4-1)线性判别分析(LDA)降维；使用每个情感对各自的投影向量，分别进行各自的LDA变换；(4-2)基于fisher判别准则的特征选择方法；(5)基于两类分类器组的判决融合：(5-1)记输入的情感语音数据(5-2)两类分类器的判决输出Ci，j；(5-3)每个两类分类器的置信度wi，j，用式(3)来得到：(5-4)用相关译码的方法来进行判决：最大的相关值对应的情感类别，即为识别结果。
申请公布号	CN101894550A	申请公布日期	2010.11.24
申请号	CN201010230514.8	申请日期	2010.07.19
申请人	东南大学	发明人	赵力;黄程韦;邹采荣;余华;王开
分类号	G10L15/02(2006.01)I;G10L15/06(2006.01)I;G10L15/08(2006.01)I	主分类号	G10L15/02(2006.01)I
代理机构	南京经纬专利商标代理有限公司 32200	代理人	许方
主权项	1.一种基于情感对特征优化的语音情感分类方法，包括如下步骤：(1)采集喜、怒、惊、悲，和平静五种基本情感状态的语音数据；(2)语音情感特征提取；(3)情感对的配对；其特征在于还包括如下步骤：(4)特征压缩与特征选择：(4-1)线性判别分析(LDA)降维，分别通过每个情感对的类内、类间离散度矩阵来计算各自的投影变换向量；使用每个情感对各自的投影向量，分别进行各自的LDA变换；(4-2)基于fisher判别准则的特征选择方法Fisher判别准则如式(1)所示：<maths num="0001"><![CDATA[<math><mrow><mi>f</mi><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mrow><mo>(</mo><msub><mi>μ</mi><mrow><mn>1</mn><mi>d</mi></mrow></msub><mo>-</mo><msub><mi>μ</mi><mrow><mn>2</mn><mi>d</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><mrow><msubsup><mi>σ</mi><mrow><mn>1</mn><mi>d</mi></mrow><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>σ</mi><mrow><mn>2</mn><mi>d</mi></mrow><mn>2</mn></msubsup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中μ<sub>1d</sub>、μ<sub>2d</sub>为第d个维度两个类别的特征值的均值，<img file="FSA00000196124100012.GIF" wi="86" he="58" /><img file="FSA00000196124100013.GIF" wi="68" he="59" />为第d个维度两个类别的特征值的方差；(5)基于两类分类器组的判决融合：(5-1)记输入的情感语音数据，经过步骤(4)特征选择后构成待识别的样本矢量为X，一个两类分类器识别的情感为第i个情感与第j个情感，则通过GMM模型得到的GMM似然度为，P(X\|λ<sub>i</sub>)，P(X\|λ<sub>i</sub>)，其中λ<sub>i</sub>，λ<sub>j</sub>为两种情感的GMM模型的参数；(5-2)两类分类器的判决输出C<sub>i，j</sub>为：<maths num="0002"><![CDATA[<math><mrow><msub><mi>C</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>i</mi></mtd><mtd><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>\|</mo><msub><mi>λ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&GreaterEqual;</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>\|</mo><msub><mi>λ</mi><mi>j</mi></msub><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mi>j</mi><mo>,</mo></mtd><mtd><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>\|</mo><msub><mi>λ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>≤</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>\|</mo><msub><mi>λ</mi><mi>j</mi></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>(5-3)每个两类分类器的置信度w<sub>i，j</sub>，用式(3)来得到：<maths num="0003"><![CDATA[<math><mrow><msub><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mn>2</mn><mo>×</mo><mfrac><mrow><mo>\|</mo><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>\|</mo><msub><mi>λ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>\|</mo><msub><mi>λ</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>\|</mo><msub><mi>λ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>\|</mo><msub><mi>λ</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>(5-4)用相关译码的方法来进行判决：即：每个两类分类器的输出值构成列向量C，设定的情感码字记为矩阵I<sub>m×n</sub>，m为分类器的个数，n为情感类别数。输出值与码字间的距离即为相关值r<sub>i</sub>，i＝1，2，…n，通过式(4)得到，R<sup>T</sup>＝C<sup>T</sup>·I<sub>m×n</sub> (4)其中，R＝{r<sub>1</sub>，r<sub>2</sub>，…，r<sub>n</sub>}，每个分量与一种情感对应。最大的相关值对应的情感类别，即为识别结果，i<sup></sup>＝arg max{r<sub>i</sub>} (5)i<sup></sup>表示识别出的情感类别的标号。
地址	215123 江苏省苏州市工业园区独墅湖高教区林泉街399号