发明名称 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
摘要 本发明一种结合声门激励和声道调制信息的汉语语音情感提取及建模方法,该汉语声门激励信息的提取方法为:制定电声门图情感语音数据库规范;收集电声门图情感语音数据;电声门图情感语音主观评测,即由至少十名评测者对电声门图情感语音进行评测。结合声门激励和声道调制信息的汉语情感建模方法为:首先根据电声门图提取声门激励信息;其次根据电声门图和语音信号的关系提取语音信号中的声道调制信息;最后,利用所有备选特征的Fisher比率为每种情感选择合适的情感特征,并训练一对多支持向量机模型。本发明通过电声门图信号提取声门激励信息,将语音信号中的声门激励信息和声道调制信息分离,更准确的反映语音中的情感信息。
申请公布号 CN102750950B 申请公布日期 2014.04.16
申请号 CN201210211283.5 申请日期 2011.09.30
申请人 北京航空航天大学 发明人 毛峡;陈立江
分类号 G10L17/04(2013.01)I;G10L17/14(2013.01)I;G10L25/93(2013.01)I;G10L25/63(2013.01)I 主分类号 G10L17/04(2013.01)I
代理机构 代理人
主权项 结合声门激励和声道调制信息的汉语情感建模方法,其步骤如下:步骤1:结合电声门图和语音信号进行浊音段、清音段和静音段划分;步骤1.1:对电声门图信号进行带通滤波,然后对电声门图情感语音数据库中的电声门图和语音信号进行分帧处理,帧长256个采样点,帧移128个采样点;步骤1.2:分别提取所有电声门图数据帧的对数能量E<sub>egg</sub>和语音信号数据帧的对数能量E<sub>speech</sub>,根据E<sub>egg</sub>的统计结果设定阈值th<sub>0</sub>,根据E<sub>speech</sub>的统计结果设定th<sub>1</sub>和th<sub>2</sub>;步骤1.3:若某数据帧E<sub>egg</sub>大于th<sub>0</sub>并且E<sub>speech</sub>大于th<sub>2</sub>,则该数据帧为浊音,若某数据帧不是浊音并且E<sub>speech</sub>大于th<sub>1</sub>,则该数据帧为清音,其余数据帧为静音;步骤2:提取浊音的声门激励信息;步骤2.1:计算各浊音段持续时长的频数直方图,并对该频数直方图横纵坐标归一化之后取对数,以浊音段归一化对数持续时长为自变量,以持续时长的归一化对数频数为因变量,进行一元线性回归分析,得到浊音段持续时长频数的双对数分布参数;步骤2.2:计算各浊音帧的基频,依照步骤2.1的方法分别计算基频曲线上升段和下降段的持续时长频数的双对数分布参数;步骤3:提取浊音和清音的声道调制信息;步骤3.1:对浊音帧的电声门图和语音信号进行快速傅立叶变换,对转换到频域的电声门图和语音信号进行能量归一化,利用频域相除法,将频域归一化语音信号与频域归一化电声门图信号相除,计算所得结果的基本特征及其对时间的一阶差分和二阶差分,所述基本特征为10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率;并计算所有基本特征和差分特征的衍生参数,所述衍生参数为所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度;步骤3.2:计算清音的基本特征及其对时间的一阶差分和二阶差分,所述基本特征为10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率;并计算所有基本特征和差分特征的衍生参数,所述衍生参数为最大值、最小值、均值、标准差、峰度、偏度;步骤4:根据步骤1至步骤3得到的声门激励和声道调制特征参数建立六种情感支持向量机一对多分类模型;步骤4.1:以电声门图情感语音数据库为基础,计算步骤1至步骤3提取的每种特征的6个Fisher比率,每个Fisher比率对应一种情感;步骤4.2:根据步骤4.1得到的Fisher比率的排序选择适用于每种支持向量机模型的特征参数,为每种情感训练一对多支持向量机模型。
地址 100191 北京市海淀区学院路37号