发明名称 一种基于改进Fukunage-koontz变换的语音情感识别方法
摘要 本发明公开了一种基于改进Fukunage-koontz变换(FKT)的语音情感识别方法,利用本发明变换可以有效实现特征降维,在降维过程中,考虑到语音内部流形结构,引入可以描述帧间关联性的参数τ,在计算特征协方差时进行加权,从而寻找降维后具有最大最小方差的特征,并且以方差为分类判别信息,采用k近邻识别方法实现多种语音情感识别。与已有的同类识别方法相比,本发明能有效提高识别率。
申请公布号 CN101620851B 申请公布日期 2011.07.27
申请号 CN200810122804.3 申请日期 2008.07.01
申请人 邹采荣;赵力 发明人 邹采荣;赵力;赵艳;魏昕
分类号 G10L15/00(2006.01)I;G10L15/02(2006.01)I;G10L15/06(2006.01)I;G10L15/08(2006.01)I 主分类号 G10L15/00(2006.01)I
代理机构 代理人
主权项 1.一种基于改进Fukunage-koontz变换的语音情感识别方法,其步骤为: 建立特征提取分析模块、改进Fukunage-koontz变换、情感识别模块;特征提取分析模块包括提取线性预测倒谱系数、Mel倒谱系数;(1)线性预测倒谱系数 (1-1)将原始语音信号经高通滤波器预处理; (1-2)分帧,加窗; (1-3)按照Durbin快速算法求出p阶线性预测系数a<sub>1</sub>,a<sub>2</sub>,…,a<sub>p</sub>; (1-4)根据计算线性预测系数复倒谱<img file="FSB00000511458500011.GIF" wi="103" he="67" />(1-5)计算线性预测倒谱系数; (2)Mel倒谱系数 (2-1)将实际频率尺度转换为Mel频率尺度; (2-2)在Mel频率轴上配置L个通道的三角形滤波器组,每个三角形滤波器的中心频率在Mel频率轴上等间隔分配,第l个三角形滤波器的下限o(l)、中心c(l)和上限频率h(l)与其相邻滤波器关系如下; c(l)=h(l-1)=o(l+1)    (式1) (2-3)对语音信号幅度谱|X<sub>n</sub>(k)|求出每个三角形滤波器输出; (2-4)对所有滤波器输出做对数运算,然后余弦变换,得到Mel倒谱系数; (3)改进Fukunage-koontz变换 (3-1)将(1)(2)中全部特征提取完毕后,组成特征矢量序列; (3-2)构建Fukunage-koontz变换目标函数:对两种类别的零均值样本集X=(x<sub>1</sub>,x<sub>2</sub>,…x<sub>n</sub>),Y=(y<sub>1</sub>,y<sub>2</sub>,…y<sub>m</sub>),x<sub>i</sub>,y<sub>i</sub>∈R<sup>K</sup>;寻找变换矩阵Φ,使得满足: Φ<sup>T</sup>R<sub>X</sub>Φ=Λ,Φ<sup>T</sup>R<sub>Y</sub>Φ=I-Λ    (式2) <img file="FSB00000511458500012.GIF" wi="239" he="95" /><img file="FSB00000511458500013.GIF" wi="184" he="68" />(式3)其实现可以在低维空间(<img file="FSB00000511458500014.GIF" wi="232" he="60" />k<K)中通过协方差阵的特征值寻找分类判别信息,等价于:<img file="FSB00000511458500015.GIF" wi="965" he="179" />Φ<sup>T</sup>R<sub>Y</sub>Φ=I    (式4)(3-3)将变换后采样的协方差可看成是映射点对的距离和,并引入<img file="FSB00000511458500021.GIF" wi="73" he="64" />进行加权;<img file="FSB00000511458500022.GIF" wi="1122" he="121" />(式5)<img file="FSB00000511458500023.GIF" wi="1046" he="332" />(式6)其中τ是针对语句的段特性所设置的参数,目的是体现语句内部帧间结构;(3-4)将(式5)(式6)代入(式4),得到改进Fukunage-koontz变换目标函数; <img file="FSB00000511458500024.GIF" wi="1049" he="166" /><img file="FSB00000511458500025.GIF" wi="537" he="150" />(式7)其中D<sup>P</sup>=diag(d<sub>1</sub><sup>P</sup>,d<sub>2</sub><sup>P</sup>,…,d<sub>r</sub><sup>P</sup>),<img file="FSB00000511458500026.GIF" wi="324" he="102" />P={X,Y};矩阵W<sup>X</sup>第i行 第j列元素为<img file="FSB00000511458500027.GIF" wi="1031" he="373" />矩阵W<sup>Y</sup>第i行第 j列元素为<img file="FSB00000511458500028.GIF" wi="881" he="292" />;(3-5)计算W<sup>X</sup>、W<sup>Y</sup>、D<sup>X</sup>、D<sup>Y</sup>,令<img file="FSB00000511458500029.GIF" wi="336" he="60" /><img file="FSB000005114585000210.GIF" wi="290" he="61" />(3-6)对<img file="FSB000005114585000211.GIF" wi="169" he="78" />求特征值矩阵D和特征向量矩阵U,令<img file="FSB000005114585000212.GIF" wi="218" he="92" />(3-7)令<img file="FSB000005114585000213.GIF" wi="295" he="96" />求<img file="FSB000005114585000214.GIF" wi="57" he="77" />的特征向量矩阵V;(3-8)Φ=PV,<img file="FSB000005114585000215.GIF" wi="224" he="77" /><img file="FSB000005114585000216.GIF" wi="204" he="65" />(4)情感识别 (4-1)从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五类情感各N<sub>i</sub>条 语句作为训练样本,<img file="FSB00000511458500031.GIF" wi="252" he="76" />(4-2)将第i类情感所有训练语句所提取特征矢量看为X,其余情感所有训练语句所提取特征矢量看为Y,按照(3-5)~(3-8)中步骤降维,得到降维后特征矢量<img file="FSB00000511458500032.GIF" wi="166" he="65" />(4-3)将<img file="FSB00000511458500033.GIF" wi="141" he="63" />前r行方差和后r行方差作为新特征矢量训练样本集,r=2;(4-4)对待识别语句,按照(3-8)中所得Φ降维,求出降维后特征前r行方差和后r行方差构成新特征矢量,采用k近邻法找出其在(4-3)样本集中的k个近邻,选择具有最多近邻所对应情感为识别结果; (4-5)按(4-2)~(4-4)作出5类情感的识别器。 
地址 210096 江苏省南京市四牌楼2号东南大学信息科学与工程学院