发明名称 一种嵌入式语音情感识别方法及装置
摘要 本发明涉及一种嵌入式语音情感识别方法及装置。所述方法包括特征提取方法、情感模型训练方法、高斯混合模型、情感识别方法。该方法根据说话人模块的识别结果来自适应的调整语音情感识别模型的参数,将非特定人语音情感识别问题转化为特定人语音情感识别问题。所述装置包括处理器、电源、时钟发生器、Nand Flash存储器、Nor Flash存储器、音频编解码芯片、话筒、扬声器、键盘、LCD显示器、USB接口存储器。本发明在语音情感识别中加入说话人识别模型,解决了语音情感识别在非特定人的情况下识别率急剧下降的问题,同时使装置具有身份辨识功能。
申请公布号 CN102737629A 申请公布日期 2012.10.17
申请号 CN201110358672.6 申请日期 2011.11.11
申请人 东南大学 发明人 黄永明;章国宝;董飞;祖晖;刘海彬;倪道宏
分类号 G10L15/00(2006.01)I;G10L15/06(2006.01)I 主分类号 G10L15/00(2006.01)I
代理机构 南京天翼专利代理有限责任公司 32112 代理人 汤志武
主权项 1.一种嵌入式语音情感识别方法,其特征在于,包括以下步骤:步骤1:接收待识别的情感语音片断输入;步骤2:对待识别的情感语音片断数字化以提供数字语音信号;步骤3:对待识别的情感数字语音信号X(n)进行预处理,包括预加重、分帧、加窗、端点检测:步骤3.1:对待识别的情感数字语音信号X(n)按下面进行预加重:<img file="DEST_PATH_FDA00001641029300011.GIF" wi="1382" he="69" />式中α=0.9375,n表示待识别的情感数字语音离散点序号;步骤3.2:采用交叠分段的方法进行分帧,前一帧与后一帧之间有交叠的部分,称为帧移,此处帧移取7ms,即在11.025kHz采样率下取80个点,每一帧长取23ms,即取256个点;步骤3.3:选择汉明窗对语音信号进行加窗处理,窗口函数如下:<img file="DEST_PATH_FDA00001641029300012.GIF" wi="1142" he="174" />式中n′表示每一帧数字语音离散点序号,N表示每一帧数字语音离散点点数,此处N=256;步骤3.4:采用公知的能量过零率双门限判决法来完成端点检测,即依据环境噪声的能量和过零率都低于语音信号的短时能量和短时过零率的原则,首先用短时能量作第一级判别,然后在此基础上再用短时过零率作第二级判别,计算出短时能量上限、下限和过零率门限的值,然后对每帧数据进行判断,端点检测后得到每一帧数字语音X(n′);步骤4:对经过预处理的数字语音提取语音特征参数,该特征参数为12维美尔频率倒谱系数;步骤5:将步骤4提取的语音特征参数输入到已经训练好的各说话人识别子模型中,来确定哪一个说话人识别子模型是该语音片断的一个最佳匹配,根据 匹配的说话人识别子模型来选择该模型对应的说话人;步骤6:根据步骤5说话人的判定结果,从训练好的说话人语音情感识别模型库中选择该说话人对应的语音情感识别模型;步骤7:将步骤4提取语音特征参数输入到步骤6选择的语音情感识别子模型中,所述语音情感识别模型包括高兴、生气、悲伤、害怕、平静五个已经训练好的情感子模型,根据语音情感识别模型中的输出结果来确定哪一种情感是该语音片断的一个最佳匹配。
地址 211189 江苏省南京市江宁开发区东南大学路2号