发明名称 一种基于模糊支持向量机的语音情感识别方法
摘要 本发明涉及语音情感识别技术,具体的说是涉及一种基于模糊支持向量机的语音情感识别方法。本发明的方法包括:对输入的带有情感的语音信号进行预处理;所述预处理包括预加重滤波和加窗分帧;提取处理后的语音信号的特征信息梅尔倒普系数(MFCC);对所提取的梅尔倒普系数用核主成份分析(KPCA)进行降维处理;根据降维后的梅尔倒普系数特征信息进行分类识别,并输出识别结果;具体的分类识别方法为采用FSVM算法进行;本发明的有益效果为,通过MFCC情感特征,然后用KPCA对特征降维减少了冗余的信息,比直接使用MFCC特征的识别效果要好很多,其识别率更高,效果更好,且识别速度更快。本发明尤其适用于语音智能情感识别。
申请公布号 CN104091602A 申请公布日期 2014.10.08
申请号 CN201410331505.6 申请日期 2014.07.11
申请人 电子科技大学 发明人 周代英;谭发曾;贾继超;田兵兵;寥阔
分类号 G10L25/63(2013.01)I;G10L17/02(2013.01)I;G10L15/06(2013.01)I;G10L17/04(2013.01)I 主分类号 G10L25/63(2013.01)I
代理机构 成都宏顺专利代理事务所(普通合伙) 51227 代理人 李玉兴
主权项 一种基于模糊支持向量机的语音情感识别方法,其特征在于,包括以下步骤:a.对输入的语音信号预处理;所述预处理包括预加重滤波和加窗分帧;b.提取处理后的语音信号的特征信息;所述特征信息为梅尔倒普系数;c.对提取的梅尔倒普系数进行降维处理;所述降维处理具体为采用核主成份分析进行降维;d.将降维处理后的梅尔倒普系数特征信息输入模糊支持向量机分类器,模糊支持向量机分类器输出分类识别结果;所述模糊支持向量机分类器采用模糊支持向量算法对语音训练样本进行训练,具备语音情感分类识别能力;所述语音训练样本经过上述步骤a~c处理后,再用于训练模糊支持向量机分类器;所述模糊支持向量算法的具体步骤为:d1.假设训练样本S<sub>0</sub>={(x<sub>1</sub>,y<sub>1</sub>,s<sub>1</sub>)(x<sub>2</sub>,y<sub>2</sub>,s<sub>2</sub>),…,(x<sub>l</sub>,y<sub>l</sub>,s<sub>l</sub>)},其中(x<sub>l</sub>,y<sub>l</sub>,s<sub>l</sub>)中的x<sub>l</sub>为输入样本,y<sub>l</sub>为输入样本所对应的输出类别值,s<sub>l</sub>为输入样本的隶属度值,下标l为样本数;d2.在约束条件<img file="FDA0000536396420000011.GIF" wi="318" he="141" />下求解使目标函数0≤μ<sub>i</sub>≤s<sub>i</sub>C<sub>0</sub>,i=1,…,l.<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>U</mi><mo>=</mo><mi>min</mi><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><msub><mi>&mu;</mi><mi>i</mi></msub><msub><mi>&mu;</mi><mi>j</mi></msub><msub><mi>y</mi><mi>i</mi></msub><msub><mi>y</mi><mi>j</mi></msub><mi>k</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><msub><mi>&mu;</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0000536396420000012.GIF" wi="857" he="148" /></maths>最小的<img file="FDA0000536396420000013.GIF" wi="86" he="85" />其中μ<sub>i</sub>为Lagrange乘子,C<sub>0</sub>为惩罚因子,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>k</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><msub><mi>x</mi><mi>j</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><msup><mi>&sigma;</mi><mn>2</mn></msup></mfrac><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000536396420000014.GIF" wi="580" he="161" /></maths>d3.计算最优权值<img file="FDA0000536396420000015.GIF" wi="328" he="141" />Y<sub>0</sub>为隐层输出向量;d4.对于待分类样本X<sub>0</sub>,计算分类判别函数<img file="FDA0000536396420000016.GIF" wi="584" he="141" />b是一个常数,j为类别编号,根据判别函数的取值,决定X<sub>0</sub>的归属类别,其具体方法为:d41.设语音情感有四类,包括高兴、生气、悲伤和平静,先分别对情感类别进行编号,具体为:高兴类别编号为1、生气类别编号为2、悲伤类别编号为3、平静类别编号为4;d42.对于输入向量x,如果f<sub>j</sub>(x)>0,则将x划分到第j类;如果f<sub>j</sub>(x)>0满足不止一个类别j(j=1,2,3,4),则将x划分到f<sub>j</sub>(x)(j∈(1,2,3,4))取最大值的那一类;如果f<sub>j</sub>(x)≤0,则将数据划分到f<sub>j</sub>(x)绝对值最小的那个类。
地址 611731 四川省成都市高新区(西区)西源大道2006号