主权项 |
一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:包括以下步骤:(1)、提取汉语语音训练样本的情感特征;选取语音情感训练样本集S={S1, S2, S3},其中Si(i=1,2,3)是第i粗分类样本集合,提取样本情感粗分类的全局统计音质特征,提取汉语语音训练样本的情感特征,选择愤怒、高兴、悲伤、害怕、厌恶、惊奇等6种常见的语音情感构成训练样本集S={S1, S2, S3},其中Si(i=1,2,3)是第i粗分类样本集合;采用与说话人和文本内容无关的74个全局统计特征作为汉语语音情感识别的音质特征:特征1‑10:短时能量及其差分的均值、最大值、最小值、中值、方差;特征11‑25:基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差;特征26:基音范围;特征27‑36:发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数;特征37‑66:第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差;特征67‑69:250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比;特征70‑74:谐波噪声比的均值、最大值、最小值、中值、方差;由于细分类的情感识别只和一部分特征参数相关度较高,为了降低算法复杂程度,采用PCA降维处理将74个粗分类特征降维到10个细分类特征;(2)、采用模糊支持向量机进行分类和识别,采用模糊支持向量机进行分类和识别时,所述模糊支持向量机采用径向基核函数:<img file="dest_path_image002.GIF" wi="160" he="48" />并使用模糊因子<i>u</i><sub>i,j</sub>控制不同样本和噪声对分类的影响,所述模糊因子<img file="dest_path_image004.GIF" wi="141" he="50" />,其中<img file="dest_path_image006.GIF" wi="25" he="26" />代表样本<img file="dest_path_image008.GIF" wi="32" he="26" />∈S<sub>i</sub>的特征向量到特征向量中心F<sub>i</sub>的欧氏距离,此处,特征向量中心F<sub>i</sub>代表每一个粗分类的特征均值,计算语音样本情感特征的特征向量中心<img file="dest_path_image010.GIF" wi="18" he="25" />的过程为:首先对处在不同量级和单位的特征参数进行归一化处理,然后计算每一粗分类或细分类特征的均值,构成分特征向量中心<img file="70060dest_path_image010.GIF" wi="18" he="25" />;(3)、进行汉语语音情感识别,进行汉语语音情感识别:对愤怒、高兴、悲伤、害怕、厌恶、惊奇6种常见的语音情感分类进行识别,包括两个阶段:第一阶段为情感的粗分类阶段,提取基音范围、平均基音值、基音变化和声音强度,使用模糊支持向量机,把6种情感分为:C1 (愤怒和高兴)、C2 (悲伤和害怕)和C3 (厌恶和惊奇)三大粗分类;第二阶段为情感的细分类阶段,增加类内情感的区分特征值,再次使用模糊支持向量机对大类内部进行更细的划分,从而达到识别每种情感的目的。 |