发明名称 基于声道调制信号MFCC的汉语语音情感点识别方法
摘要 本发明提出了一种可以提高情感点平均识别率的方法,该方法为:制定电声门图情感数据和语音数据库规范;收集电声门图情感数据和语音数据;对收集的数据进行主观评测,选出其中一套数据子集作为研究对象。对数据子集中的电声门图信号和语音信号进行预处理,并提取语音信号中的短时特征及相应的统计特征和MEL倒谱系数SMFCC;再将电声门图信号和语音信号进行快速傅里叶变换后相除,计算相除后得到的声道信息的MEL倒谱系数TMFCC。分别用不同的特征组合进行实验,求解说话人相关和说话人无关时28个情感点在不同特征组合下的平均识别率。实验结果表明采用TMFCC特征组合可以提高情感点平均识别率。
申请公布号 CN102655003B 申请公布日期 2013.12.04
申请号 CN201210076307.0 申请日期 2012.03.21
申请人 北京航空航天大学 发明人 毛峡;魏鹏飞
分类号 G10L17/26(2013.01)I;G10L25/63(2013.01)I 主分类号 G10L17/26(2013.01)I
代理机构 代理人
主权项 结合声门激励信息和语音信息的情感点建模与识别的方法,其步骤如下:步骤1:制定语音数据库规范;选择10名发音人员,年龄20至30周岁,职业为学生,其中包括5名女性,5名男性;选择28个常用的没有明显情感倾向的汉语普通话感叹词作为情感点用于录音脚本;步骤2:收集电声门图数据和情感语音数据;步骤2.1:录音地点为一间空旷的实验室,录制时间选择在晚上,录音设备采用DELLOPTIPLEX330电脑,TIGEX‑EGG3电声门图仪,BE‑8800驻极体电容式麦克风,录音软件采用的是GOLDWAVE,录制双声道数据,左声道为麦克风采集的语音数据,右声道为电声门图仪采集的声门激励数据;步骤2.2:请说话者以指定的情感朗读所有录音脚本,重复3遍,并请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率44100Hz,16Bit双声道PCM编码格式的WAV文件,否则重复步骤2.2;步骤2.3:更换说话者重复步骤2.2,得到10名说话者的电声门图数据和语音数据各840条;步骤3:邀请10位评测者对2.3中得到的电声门图数据和语音数据进行评测,据评测结果,从数据全集中选择1套数据子集,该数据子集中的电声门图数据和语音数据至少被7人正确识别,该子集包括3男2女共5名说话者的电声门图数据和语音数据各420条;步骤4:对语音信号进行特征提取;步骤4.1:对选取的数据子集中的电声门图信号和语音信号进行预处理操作,包括采样与量化,预加重,分帧与加窗,经过预处理过程,电声门图信号和语音信号被分割为短时信号;步骤4.2:对预处理过的语音信号计算短时特征参数,包括:基频,短时能量,自相关密度,分形维数,4阶共振峰,并计算这些短时特征参数的统计特征,包括:最大值,最小值,均值,均方值,峰度,偏度;步骤5:结合电声门图信号和语音信号提取SMFCC与TMFCC;步骤5.1:对预处理过的语音信号计算10阶MEL倒谱系数,记为SMFCC;步骤5.2:对预处理过的电声门图信号和语音信号分别进行快速傅里叶变换,并对转换到频域的电声门图信号和语音信号进行能量归一化,然后用归一化的语音信号除以归一化 的电声门图信号,并对结果求取10阶MEL倒谱系数,记为TMFCC;步骤6:利用步骤1和步骤2中得到的特征参数进行训练建模与识别;步骤6.1:对步骤1和步骤2中得到的所有特征参数利用LBG算法进行聚类量化;步骤6.2:进行说话人相关的对比实验,选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成语音信号特征组合,对于每一个情感点,任意选取5名说话者的两遍数据的语音信号特征组合和SMFCC进行训练建模,得到28个训练完成的隐马尔科夫模型,并对剩余的一遍数据进行识别,得到每个情感点的识别率P1和所有情感点的平均识别率AP1;步骤6.3:选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成的语音信号特征组合和TMFCC重复步骤3.2中的实验,得到每个情感点的识别率P2和所有情感点的平均识别率AP2;步骤6.4:对比步骤3.2和步骤3.3中得到的P1与P2,AP1与AP2,总结结论;步骤6.5:进行说话人无关的对比实验,选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成语音信号特征组合,对于每一个情感点,任意选取4名说话者的三遍数据的语音信号特征组合和SMFCC进行训练建模,得到28个训练完成的隐马尔科夫模型,对剩余1名说话者的三遍数据进行识别,得到每个情感点的识别率P3和所有情感点的平均识别率AP3;步骤6.6:选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成的语音信号特征组合和TMFCC重复步骤3.5中的实验得到每个情感点的识别率P4和所有情感点的平均识别率AP4;步骤6.7:对比步骤3.5和步骤3.6中得到的P3与P4,AP3与AP4,总结结论。
地址 100191 北京市海淀区学院路37号