发明名称 基于压缩感知的鲁棒性语音情感识别方法
摘要 本发明公开了一种基于压缩感知的鲁棒性语音情感识别方法,包含如下步骤:产生含噪声的情感语音样本、建立声学特征提取模块、构建稀疏表示分类器模型、输出语音情感识别结果;有益效果是:充分考虑到自然环境中的情感语音通常会受到噪声的影响,提供一种噪声背景下的鲁棒性语音情感识别方法;充分考虑到不同类型特征参数的有效性,将特征参数的提取从韵律特征和音质特征两方面,扩充到梅尔频率倒谱系数MFCC,进一步提高特征参数的抗噪声效果;利用压缩感知理论中的稀疏表示的判别性,提供一种高性能的基于压缩感知理论的鲁棒性语音情感识别方法。<!--1-->
申请公布号 CN103021406B 申请公布日期 2014.10.22
申请号 CN201210551585.7 申请日期 2012.12.18
申请人 台州学院;赵小明;张石清 发明人 赵小明;张石清
分类号 G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/08(2006.01)I;G10L25/03(2013.01)I;G10L25/63(2013.01)I 主分类号 G10L15/02(2006.01)I
代理机构 杭州赛科专利代理事务所 33230 代理人 曹绍文
主权项 一种基于压缩感知的鲁棒性语音情感识别方法,其特征在于,该方法包含如下步骤: 产生含噪声的情感语音样本、建立声学特征提取模块、构建稀疏表示分类器模型、输出语音情感识别结果; (1)产生含噪声的情感语音样本,包括: 将情感语音样本库的所有语音样本,分为训练样本和测试样本两部分,然后对每一个训练样本和测试样本都添加高斯白噪声,从而产生含噪声的情感语音样本; (2)建立声学特征提取模块,包括: 将含噪声的情感语音样本进行声学特征提取,该声学特征提取模块包括三部分:韵律特征参数提取、音质特征参数提取、梅尔频率倒谱系数MFCC提取; (2‑1)韵律特征参数提取,包括:基频、振幅和发音持续时间; (2‑2)音质特征参数提取,包括:共振峰、频带能量分布、谐波噪声比和短时抖动参数; (2‑3)梅尔频率倒谱系数MFCC提取,包括:提取13维MFCC特征及其一阶和二阶导数参数,然后计算出它们的平均值和标准差; (3)构建稀疏表示分类器模型,包括: 通过声学特征提取模块,每一个情感语音样本都对应着一个由提取的声学特征参数所构成的特征矢量;将所有情感语音样本所对应的特征矢量都输入到稀疏表示分类器中,用于构建稀疏表示分类器模型; 构建稀疏表示分类器的方法是,首先采用稀疏分解的方法,用训练样本对测试样本进行最稀疏表示,即把训练样本看作为一组基,通过求解1‑范数最小化的方法得到测试样本的最稀疏表示系数,最后用测试样本与稀疏表示后的残差来进行分类; 所述构建稀疏表示分类器的方法,具体步骤如下: 给定某一类的训练样本,测试样本看作为同类训练样本的线性组合,即 <img file="FDA0000538358490000011.GIF" wi="1214" he="138" />(式1)式中,y<sub>k,test</sub>表示第k<sup>th</sup>类的测试样本,y<sub>k,i</sub>表示第k<sup>th</sup>类的第i<sup>th</sup>个训练样本,α<sub>k,i</sub> 表示相应训练样本的权向量,ε<sub>k</sub>则表示误差 ;对于所有目标类别的训练样本,(式1)可表示为: <img file="FDA0000538358490000021.GIF" wi="1232" he="227" />(式2)式中,c表示所有训练样本的总的类别数 ;采用矩阵的形式表示(式2),则 y<sub>k,test</sub>=Aα+ε  (式3) 其中 <img file="FDA0000538358490000022.GIF" wi="950" he="181" />(式4)理论上,在稀疏表示分类器中,要求权向量α中除了与第k<sup>th</sup>类相关的元素外,其余的元素都应该为零 ;为了获取权向量α,需要求解下面的L‑0范数意义下的最优化问题: <img file="FDA0000538358490000023.GIF" wi="682" he="100" />(式5)为求解(式5),将L‑0范数最优化问题转化为L‑1范数最优化问题求解: <img file="FDA0000538358490000024.GIF" wi="677" he="100" />(式6)这是一个凸优化问题,可转化为线性规划问题进行求解 ;为了进一步提高稀疏表示的抗噪声性能,设计一个加权的L‑1范数最优化问题,即(式6)可表示为: <img file="FDA0000538358490000025.GIF" wi="765" he="100" />(式7)其中,权因子变量W可表示为: <img file="FDA0000538358490000026.GIF" wi="340" he="125" />(式8)式中,σ为一个常数,y<sub>recons</sub>(i)=Aα<sub>i</sub>表示一个基于权向量α<sub>i</sub>的重构样本,其中,常数σ设为1,对于噪声比较大的数据,残差值||y‑y<sub>recons</sub>(i)||<sub>2</sub>就会比较大,其相应的权因子变量会比较小; 给定一个新的测试样本y<sub>test</sub>,首先通过求解(式7)获取权向量α,权向量α的非零系数当中最大的系数值若对应第k<sup>th</sup>类,且将y<sub>test</sub>归入到这个类别当中,或将y<sub>test</sub>归入到权向量α中最大的系数值所对应的类别当中; (4)输出语音情感识别结果,包括: 通过稀疏表示分类器的训练和测试,输出语音情感识别结果,情感识别测试中采用10次交叉检验技术,即所有语句被平分为10份,每次使用其中的9份数据用于训练,剩下的1份数据用于测试,这样的识别实验过程相应重复10次,最后取10次的平均值作为识别结果。 
地址 318000 浙江省台州市市府大道1139号