发明名称 一种基于模糊支持向量机的汉语语音情感识别方法
摘要 本发明公开了一种基于模糊支持向量机的汉语语音情感识别方法,用于汉语语音的情感识别。识别过程包括粗分类和细分类两个阶段:粗分阶段提取待识别样本的全局统计情感特征,使用粗分类模糊支持向量机将情感分为三大粗分类;细分阶段增加类内情感的区分度,使用细分类模糊支持向量机对粗分类内部进行更细划分,从而识别每种情感。其中,情感特征与说话人和文本内容无关,支持向量机训练受模糊因子指导,细分特征经PCA降维增加区分度。本发明采用全局统计音质特征实现与说话人和文本内容无关的汉语语音情感表示;分阶段分类识别,有效降低算法复杂度、提高实时性;采用模糊支持向量机,在混杂语音情感条件下,获得更好的识别精度。
申请公布号 CN103258532B 申请公布日期 2015.10.28
申请号 CN201210494888.X 申请日期 2012.11.28
申请人 河海大学常州校区 发明人 张卓;范新南;梁瑞宇;奚吉;张学武;孙晓丹;凌明强;游皇斌;周卓赟
分类号 G10L15/06(2013.01)I;G10L15/14(2006.01)I 主分类号 G10L15/06(2013.01)I
代理机构 南京纵横知识产权代理有限公司 32224 代理人 董建林
主权项 一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:包括以下步骤:(1)、提取汉语语音训练样本的情感特征;选取语音情感训练样本集S={S1, S2, S3},其中Si(i=1,2,3)是第i粗分类样本集合,提取样本情感粗分类的全局统计音质特征,提取汉语语音训练样本的情感特征,选择愤怒、高兴、悲伤、害怕、厌恶、惊奇等6种常见的语音情感构成训练样本集S={S1, S2, S3},其中Si(i=1,2,3)是第i粗分类样本集合;采用与说话人和文本内容无关的74个全局统计特征作为汉语语音情感识别的音质特征:特征1‑10:短时能量及其差分的均值、最大值、最小值、中值、方差;特征11‑25:基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差;特征26:基音范围;特征27‑36:发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数;特征37‑66:第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差;特征67‑69:250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比;特征70‑74:谐波噪声比的均值、最大值、最小值、中值、方差;由于细分类的情感识别只和一部分特征参数相关度较高,为了降低算法复杂程度,采用PCA降维处理将74个粗分类特征降维到10个细分类特征;(2)、采用模糊支持向量机进行分类和识别,采用模糊支持向量机进行分类和识别时,所述模糊支持向量机采用径向基核函数:<img file="dest_path_image002.GIF" wi="160" he="48" />并使用模糊因子<i>u</i><sub>i,j</sub>控制不同样本和噪声对分类的影响,所述模糊因子<img file="dest_path_image004.GIF" wi="141" he="50" />,其中<img file="dest_path_image006.GIF" wi="25" he="26" />代表样本<img file="dest_path_image008.GIF" wi="32" he="26" />∈S<sub>i</sub>的特征向量到特征向量中心F<sub>i</sub>的欧氏距离,此处,特征向量中心F<sub>i</sub>代表每一个粗分类的特征均值,计算语音样本情感特征的特征向量中心<img file="dest_path_image010.GIF" wi="18" he="25" />的过程为:首先对处在不同量级和单位的特征参数进行归一化处理,然后计算每一粗分类或细分类特征的均值,构成分特征向量中心<img file="70060dest_path_image010.GIF" wi="18" he="25" />;(3)、进行汉语语音情感识别,进行汉语语音情感识别:对愤怒、高兴、悲伤、害怕、厌恶、惊奇6种常见的语音情感分类进行识别,包括两个阶段:第一阶段为情感的粗分类阶段,提取基音范围、平均基音值、基音变化和声音强度,使用模糊支持向量机,把6种情感分为:C1 (愤怒和高兴)、C2 (悲伤和害怕)和C3 (厌恶和惊奇)三大粗分类;第二阶段为情感的细分类阶段,增加类内情感的区分特征值,再次使用模糊支持向量机对大类内部进行更细的划分,从而达到识别每种情感的目的。
地址 213022 江苏省常州市新北区晋陵北路200号