一种基于改进Fukunage-koontz变换的语音情感识别方法,申请号CN200810122804.3-传众专利搜索

发明名称	一种基于改进Fukunage-koontz变换的语音情感识别方法
摘要	本发明公开了一种基于改进Fukunage-koontz变换(FKT)的语音情感识别方法，利用本发明变换可以有效实现特征降维，在降维过程中，考虑到语音内部流形结构，引入可以描述帧间关联性的参数τ，在计算特征协方差时进行加权，从而寻找降维后具有最大最小方差的特征，并且以方差为分类判别信息，采用k近邻识别方法实现多种语音情感识别。与已有的同类识别方法相比，本发明能有效提高识别率。
申请公布号	CN101620851B	申请公布日期	2011.07.27
申请号	CN200810122804.3	申请日期	2008.07.01
申请人	邹采荣;赵力	发明人	邹采荣;赵力;赵艳;魏昕
分类号	G10L15/00(2006.01)I;G10L15/02(2006.01)I;G10L15/06(2006.01)I;G10L15/08(2006.01)I	主分类号	G10L15/00(2006.01)I
代理机构		代理人
主权项	1.一种基于改进Fukunage-koontz变换的语音情感识别方法，其步骤为：建立特征提取分析模块、改进Fukunage-koontz变换、情感识别模块;特征提取分析模块包括提取线性预测倒谱系数、Mel倒谱系数;(1)线性预测倒谱系数 (1-1)将原始语音信号经高通滤波器预处理； (1-2)分帧，加窗； (1-3)按照Durbin快速算法求出p阶线性预测系数a<sub>1</sub>，a<sub>2</sub>，…，a<sub>p</sub>； (1-4)根据计算线性预测系数复倒谱<img file="FSB00000511458500011.GIF" wi="103" he="67" />(1-5)计算线性预测倒谱系数； (2)Mel倒谱系数 (2-1)将实际频率尺度转换为Mel频率尺度； (2-2)在Mel频率轴上配置L个通道的三角形滤波器组，每个三角形滤波器的中心频率在Mel频率轴上等间隔分配，第l个三角形滤波器的下限o(l)、中心c(l)和上限频率h(l)与其相邻滤波器关系如下； c(l)＝h(l-1)＝o(l+1) (式1) (2-3)对语音信号幅度谱\|X<sub>n</sub>(k)\|求出每个三角形滤波器输出； (2-4)对所有滤波器输出做对数运算，然后余弦变换，得到Mel倒谱系数； (3)改进Fukunage-koontz变换 (3-1)将(1)(2)中全部特征提取完毕后，组成特征矢量序列； (3-2)构建Fukunage-koontz变换目标函数：对两种类别的零均值样本集X＝(x<sub>1</sub>，x<sub>2</sub>，…x<sub>n</sub>)，Y＝(y<sub>1</sub>，y<sub>2</sub>，…y<sub>m</sub>)，x<sub>i</sub>，y<sub>i</sub>∈R<sup>K</sup>;寻找变换矩阵Φ，使得满足： Φ<sup>T</sup>R<sub>X</sub>Φ＝Λ，Φ<sup>T</sup>R<sub>Y</sub>Φ＝I-Λ (式2) <img file="FSB00000511458500012.GIF" wi="239" he="95" /><img file="FSB00000511458500013.GIF" wi="184" he="68" />(式3)其实现可以在低维空间(<img file="FSB00000511458500014.GIF" wi="232" he="60" />k＜K)中通过协方差阵的特征值寻找分类判别信息，等价于：<img file="FSB00000511458500015.GIF" wi="965" he="179" />Φ<sup>T</sup>R<sub>Y</sub>Φ＝I (式4)(3-3)将变换后采样的协方差可看成是映射点对的距离和，并引入<img file="FSB00000511458500021.GIF" wi="73" he="64" />进行加权；<img file="FSB00000511458500022.GIF" wi="1122" he="121" />(式5)<img file="FSB00000511458500023.GIF" wi="1046" he="332" />(式6)其中τ是针对语句的段特性所设置的参数，目的是体现语句内部帧间结构;(3-4)将(式5)(式6)代入(式4)，得到改进Fukunage-koontz变换目标函数； <img file="FSB00000511458500024.GIF" wi="1049" he="166" /><img file="FSB00000511458500025.GIF" wi="537" he="150" />(式7)其中D<sup>P</sup>＝diag(d<sub>1</sub><sup>P</sup>，d<sub>2</sub><sup>P</sup>，…，d<sub>r</sub><sup>P</sup>)，<img file="FSB00000511458500026.GIF" wi="324" he="102" />P＝{X，Y}；矩阵W<sup>X</sup>第i行第j列元素为<img file="FSB00000511458500027.GIF" wi="1031" he="373" />矩阵W<sup>Y</sup>第i行第 j列元素为<img file="FSB00000511458500028.GIF" wi="881" he="292" />;(3-5)计算W<sup>X</sup>、W<sup>Y</sup>、D<sup>X</sup>、D<sup>Y</sup>，令<img file="FSB00000511458500029.GIF" wi="336" he="60" /><img file="FSB000005114585000210.GIF" wi="290" he="61" />(3-6)对<img file="FSB000005114585000211.GIF" wi="169" he="78" />求特征值矩阵D和特征向量矩阵U，令<img file="FSB000005114585000212.GIF" wi="218" he="92" />(3-7)令<img file="FSB000005114585000213.GIF" wi="295" he="96" />求<img file="FSB000005114585000214.GIF" wi="57" he="77" />的特征向量矩阵V；(3-8)Φ＝PV，<img file="FSB000005114585000215.GIF" wi="224" he="77" /><img file="FSB000005114585000216.GIF" wi="204" he="65" />(4)情感识别 (4-1)从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五类情感各N<sub>i</sub>条语句作为训练样本，<img file="FSB00000511458500031.GIF" wi="252" he="76" />(4-2)将第i类情感所有训练语句所提取特征矢量看为X，其余情感所有训练语句所提取特征矢量看为Y，按照(3-5)～(3-8)中步骤降维，得到降维后特征矢量<img file="FSB00000511458500032.GIF" wi="166" he="65" />(4-3)将<img file="FSB00000511458500033.GIF" wi="141" he="63" />前r行方差和后r行方差作为新特征矢量训练样本集，r＝2；(4-4)对待识别语句，按照(3-8)中所得Φ降维，求出降维后特征前r行方差和后r行方差构成新特征矢量，采用k近邻法找出其在(4-3)样本集中的k个近邻，选择具有最多近邻所对应情感为识别结果； (4-5)按(4-2)～(4-4)作出5类情感的识别器。
地址	210096 江苏省南京市四牌楼2号东南大学信息科学与工程学院