发明名称 基于增强耦合HMM的语音-视觉融合的情感识别方法
摘要 本发明提出的一种基于增强耦合HMM的语音-视觉融合的情感识别方法,属于自动情感识别领域。本发明方法融合了脸部表情和语音两种特征流,使用改进的EM算法训练连续型二分量耦合HMM,训练时考虑并不断更新各样本的权重,使得训练过程偏重于难于识别的样本。本发明方法与已有识别方法相比明显提高了分类的准确度。
申请公布号 CN102930297A 申请公布日期 2013.02.13
申请号 CN201210435946.1 申请日期 2012.11.05
申请人 北京理工大学 发明人 吕坤;张欣;贾云得
分类号 G06K9/62(2006.01)I;G06K9/66(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 代理人
主权项 1.一种增强耦合HMM的语音-视觉融合的情感识别方法,用于识别情感视频中的人的情感,所述情感包括:中性、高兴、生气、惊讶、恐惧、悲伤、厌恶等;所述情感视频是指包含人脸表情和语音的视频数据,并且每段情感视频都开始于中性表情;其特征在于:所述增强耦合HMM的语音-视觉融合的情感识别方法包括2部分:训练过程和识别过程;所述训练过程的具体实施步骤包括步骤一至步骤六,具体为:步骤一、对训练数据中的情感视频数据进行预处理;将每一种情感的训练数据称为一个训练样本集;一个训练样本集中的训练样本数量用R表示,R≥20;该训练样本集中的第r个训练样本用x<sub>r</sub>表示,1≤r≤R;分别对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列和音频观察向量序列;一个训练样本集中的全部情感视频数据在预处理后,得到的表情观察向量序列的集合称为表情特征数据流,得到的音频观察向量序列的集合称为音频特征数据流,这2种特征数据流用符号X<sup>v</sup>表示,<img file="FDA00002355311000011.GIF" wi="271" he="99" />v∈{a,f},a表示音频,f表示表情;<img file="FDA00002355311000012.GIF" wi="45" he="56" />表示v特征数据流的第r个观察向量序列;所述对每个训练样本集中的每个情感视频数据做预处理,得到音频观察向量序列的操作步骤包括步骤a至步骤f,具体为:步骤a:从每个情感视频中以v<sub>b</sub>的采样率提取p个音频帧组成一条音频序列,v<sub>b</sub>≥5赫兹,p=v<sub>b</sub>×t<sub>a</sub>,t<sub>a</sub>为情感视频的时间长度;步骤b:依次从每条音频序列的各音频帧中提取α个音频特征值,分别用F<sub>1</sub>~F<sub>α</sub>表示,α≥4;所述音频特征值包括:信号强度;短时过零率;基音频率;共振峰频率;线性预测倒谱系数;线谱对参数;Mel频率倒谱系数;感知线性预测倒谱系数;步骤c:对所有音频帧的音频特征值F<sub>1</sub>~F<sub>α</sub>进行归一化处理,操作过程为步骤c.1至c.3,具体为:步骤c.1:找出与待处理音频帧为同一发声人物的所有中性情感的音频序列;所述待处理音频帧为当前等待做归一化处理的音频帧;步骤c.2:分别计算经过步骤c.1处理后得到的与待处理音频帧为同一发声人物的所有中性情感的音频序列中各音频帧的音频特征值F<sub>1</sub>的均值、F<sub>2</sub>的均值、……、F<sub>α</sub>的均值,分别用<img file="FDA00002355311000013.GIF" wi="37" he="57" />至<img file="FDA00002355311000014.GIF" wi="49" he="57" />表示;步骤c.3:用<img file="FDA00002355311000021.GIF" wi="37" he="57" />对待处理音频帧的音频特征值F<sub>1</sub>进行归一化处理,归一化处理后的音频特征值F<sub>1</sub>用符号F′<sub>1</sub>表示,<img file="FDA00002355311000022.GIF" wi="233" he="59" />用<img file="FDA00002355311000023.GIF" wi="44" he="56" />对待处理音频帧的音频特征值F<sub>2</sub>进行归一化处理,归一化处理后的音频特征值F<sub>2</sub>用符号F′<sub>2</sub>表示,<img file="FDA00002355311000024.GIF" wi="413" he="58" />以此类推,用<img file="FDA00002355311000025.GIF" wi="49" he="56" />对待处理音频帧的音频特征值F<sub>α</sub>进行归一化处理,归一化处理后的音频特征值F<sub>α</sub>用符号F′<sub>α</sub>表示,<img file="FDA00002355311000026.GIF" wi="271" he="59" />步骤d:获得每个音频序列中各音频帧的音频观察向量,用V′<sub>t</sub>表示,1≤t≤p;一个音频序列中的第t帧音频帧的音频观察向量V′<sub>t</sub>由经过归一化处理后的α个特征值组成,V′<sub>t</sub>=[f′<sub>t1</sub>,f′<sub>t2</sub>,……,f′<sub>tα</sub>]<sup>T</sup>,f′<sub>t1</sub>为该音频序列的第t帧音频帧中经过归一化处理的第1个音频特征值F′<sub>1</sub>,f′<sub>t2</sub>为该音频序列的第t帧音频帧中经过归一化处理的第2个音频特征值F′<sub>2</sub>,……,以此类推,f′<sub>tα</sub>为该音频序列的第t帧音频帧中经过归一化处理的第α个音频特征值F′<sub>α</sub>;步骤f:对于一个情感视频,使用矩阵M′来表示其音频观察向量序列,M′=[V′<sub>1</sub>,V′<sub>2</sub>,……,V′<sub>P</sub>]∈R<sup>α×p</sup>;所述对每个训练样本集中的每个情感视频数据做预处理,得到表情观察向量序列的操作步骤包括第1步至第6步,具体为:第1步:从每个情感视频中以v<sub>a</sub>的采样率提取m帧图像组成一个图像序列,v<sub>a</sub>≥5赫兹,m=v<sub>a</sub>×t<sub>a</sub>,v<sub>a</sub>=v<sub>b</sub>/η,η=1,2,3;由于每段情感视频都开始于中性表情,因此每个图像序列中的第一帧图像为中性表情图像;第2步:依次从每个图像序列中的各帧图像中提取θ个脸部表情特征值,分别用T<sub>1</sub>至T<sub>θ</sub>表示,θ≥5;所述脸部表情特征值包括:脸部几何特征值;脸部纹理特征值;第3步:为了解决因不同人脸型不同造成的对脸部表情特征值T<sub>1</sub>至T<sub>θ</sub>的影响,对所有图像的脸部表情特征值T<sub>1</sub>至T<sub>θ</sub>进行归一化处理,具体为:第3.1步:从全部表情图像序列中找出包含待处理图像中人脸的所有表情图像序列;所述待处理图像为当前等待做归一化处理的图像;第3.2步:分别计算经过第3.1步处理后得到的包含待处理图像中人脸的所有表情图像序列的第一帧图像中脸部表情特征值T<sub>1</sub>的均值、T<sub>2</sub>的均值、……、T<sub>θ</sub>的均值,分别用<img file="FDA00002355311000027.GIF" wi="32" he="56" />至<img file="FDA00002355311000028.GIF" wi="40" he="56" />表示;第3.3步:用<img file="FDA00002355311000029.GIF" wi="32" he="57" />对待处理图像的脸部表情特征值T1进行归一化处理,归一化处理后的脸部表情特征值T<sub>1</sub>用符号T′<sub>1</sub>表示,<img file="FDA00002355311000031.GIF" wi="213" he="59" />用<img file="FDA00002355311000032.GIF" wi="37" he="57" />对待处理图像的脸部表情特征值T<sub>2</sub>进行归一化处理,归一化处理后的脸部表情特征值T<sub>2</sub>用符号T′<sub>2</sub>表示,<img file="FDA00002355311000033.GIF" wi="391" he="58" />以此类推,用<img file="FDA00002355311000034.GIF" wi="39" he="57" />对待处理图像的脸部表情特征值T<sub>θ</sub>进行归一化处理,归一化处理后的脸部表情特征值T<sub>θ</sub>用符号T′<sub>θ</sub>表示,<img file="FDA00002355311000035.GIF" wi="237" he="59" />第4步:获得每个表情图像序列中各帧图像的表情观察向量,用V<sub>q</sub>表示,1≤q≤m;一个表情图像序列中第q帧图像的表情观察向量V<sub>q</sub>由经过第3步归一化处理后的θ个特征值组成,V<sub>q</sub>=[f<sub>q1</sub>,f<sub>q2</sub>,……,f<sub>qθ</sub>]<sup>T</sup>,f<sub>q1</sub>为该表情图像序列的第q帧图像中经过归一化处理的第1个脸部表情特征值T′<sub>1</sub>,f<sub>q2</sub>为该表情图像序列的第q帧图像中经过归一化处理的第2个脸部表情特征值T′<sub>2</sub>,……,以此类推,f<sub>qθ</sub>为该表情图像序列的第q帧图像中经过归一化处理的第θ个脸部表情特征值t′<sub>θ</sub>;第5步:对于一个情感视频,其表情图像序列中各帧图像的表情观察向量V<sub>1</sub>至V<sub>m</sub>组成该情感视频的原始表情观察向量序列,用矩阵M″来表示,M″=[V<sub>1</sub>,V<sub>2</sub>,……,V<sub>m</sub>]∈R<sup>θ×m</sup>;第6步:在每个情感视频的原始表情观察向量序列M″中的表情观察向量V<sub>q</sub>′和V<sub>q′+1</sub>之间通过线性插值法插入(η-1)个表情观察向量,并在表情观察向量V<sub>m</sub>后,增加(η-1)个V<sub>m</sub>,得到该情感视频的表情观察向量序列,用M表示,M=[V<sub>1</sub>,V<sub>2</sub>,……,V<sub>N</sub>]∈R<sup>θ×p</sup>,1≤q′<m;步骤二、建立增强耦合HMM分类器;在步骤一操作的基础上,建立增强耦合HMM分类器;所述增强耦合HMM分类器由从左向右的K′个连续型二分量耦合HMM组合而成,1≤K′≤K,K的值由人为预先设定,4≤K≤10;连续型二分量耦合HMM的两条分量HMM分别称为音频通道分量HMM和表情通道分量HMM;同一采样时间点上,每条分量HMM均有1个可见节点和1个隐节点相对应;用N<sub>v</sub>表示连续型二分量耦合HMM的v通道的分量HMM的隐状态个数,v∈{a,f};用S<sup>v</sup>表示连续型二分量耦合HMM的v通道分量HMM的隐状态集合,<img file="FDA00002355311000036.GIF" wi="501" he="81" />用N表示连续型二分量耦合HMM的隐状态个数,N=N<sub>a</sub>×N<sub>f</sub>;用S表示连续型二分量耦合HMM的隐状态集合,则<maths num="0001"><![CDATA[<math><mrow><mi>S</mi><mo>=</mo><mo>{</mo><mrow><mo>(</mo><msup><mi>S</mi><mi>a</mi></msup><mo>,</mo><msup><mi>S</mi><mi>f</mi></msup><mo>)</mo></mrow><mo>|</mo><msup><mi>S</mi><mi>a</mi></msup><mo>&Element;</mo><mo>{</mo><msubsup><mi>S</mi><mn>1</mn><mi>a</mi></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>S</mi><msub><mi>N</mi><mi>a</mi></msub><mi>a</mi></msubsup><mo>}</mo><mo>,</mo><msup><mi>S</mi><mi>f</mi></msup><mo>&Element;</mo><mo>{</mo><msubsup><mi>S</mi><mn>1</mn><mi>f</mi></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>S</mi><msub><mi>N</mi><mi>f</mi></msub><mi>f</mi></msubsup><mo>}</mo><mo>}</mo><mo>;</mo></mrow></math>]]></maths>所述连续型二分量耦合HMM的参数由公式(1)至公式(3)表示;<maths num="0002"><![CDATA[<math><mrow><mi>&pi;</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Pi;</mi><mi>v</mi></munder><msup><mi>&pi;</mi><mi>v</mi></msup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>&Pi;</mi><mi>v</mi></munder><mi>P</mi><mrow><mo>(</mo><msubsup><mi>q</mi><mn>1</mn><mi>v</mi></msubsup><mo>=</mo><msub><mi>i</mi><mi>v</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,π(i)表示连续型二分量耦合HMM的初始隐状态概率分布;i表示连续型二分量耦合HMM的隐状态,i∈S;π<sup>v</sup>(i<sub>v</sub>)表示连续型二分量耦合HMM的v通道分量HMM的初始隐状态概率分布;i<sub>v</sub>表示连续型二分量耦合HMM的v通道分量HMM的隐状态,i<sub>v</sub>∈S<sup>v</sup>;<img file="FDA00002355311000042.GIF" wi="42" he="51" />表示连续型二分量耦合HMM的v通道分量HMM在初始时刻的隐状态取值;<maths num="0003"><![CDATA[<math><mrow><mi>a</mi><mrow><mo>(</mo><mi>i</mi><mo>|</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mrow><munder><mi>&Pi;</mi><mi>v</mi></munder><msup><mi>a</mi><mi>v</mi></msup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>|</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Pi;</mi><mi>v</mi></munder><mi>P</mi><mrow><mo>(</mo><msubsup><mi>q</mi><msub><mi>t</mi><mn>1</mn></msub><mi>v</mi></msubsup><mo>=</mo><msub><mi>i</mi><mi>v</mi></msub><mo>|</mo><msub><mi>q</mi><mrow><msub><mi>t</mi><mn>1</mn></msub><mo>-</mo><mn>1</mn></mrow></msub><mo>=</mo><mi>j</mi><mo>)</mo></mrow></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,a(i|j)表示连续型二分量耦合HMM从(t<sub>1</sub>-1)时刻的隐状态j到t<sub>1</sub>时刻隐状态i的转移概率,i,j∈S,2≤t<sub>1</sub>≤p;a<sup>v</sup>(i<sub>v</sub>|j)表示从(t<sub>1</sub>-1)时刻连续型二分量耦合HMM的隐状态j到t<sub>1</sub>时刻连续型二分量耦合HMM的v通道分量HMM的隐状态i<sub>v</sub>的转移概率;<img file="FDA00002355311000044.GIF" wi="41" he="58" />表示t<sub>1</sub>时刻连续型二分量耦合HMM的v通道分量HMM的隐状态取值;<img file="FDA00002355311000045.GIF" wi="69" he="43" />表示连续型二分量耦合HMM在(t<sub>1</sub>-1)时刻的隐状态取值;<maths num="0004"><![CDATA[<math><mrow><msub><mi>b</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Pi;</mi><mi>v</mi></munder><msup><mrow><mo>[</mo><msubsup><mi>b</mi><mi>t</mi><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>)</mo></mrow><mo>]</mo></mrow><msub><mi>&lambda;</mi><mi>v</mi></msub></msup><mo>=</mo><munder><mi>&Pi;</mi><mi>v</mi></munder><msup><mrow><mo>[</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>O</mi><mi>t</mi><mi>v</mi></msubsup><mo>|</mo><msubsup><mi>q</mi><mi>t</mi><mi>v</mi></msubsup><mo>=</mo><msub><mi>i</mi><mi>v</mi></msub><mo>)</mo></mrow><mo>]</mo></mrow><msub><mi>&lambda;</mi><mi>v</mi></msub></msup><mo>=</mo><munder><mi>&Pi;</mi><mi>v</mi></munder><msup><mrow><mo>[</mo><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><msubsup><mi>M</mi><msub><mi>i</mi><mi>v</mi></msub><mi>v</mi></msubsup></munderover><msubsup><mi>w</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mi>N</mi><mrow><mo>(</mo><msubsup><mi>O</mi><mi>t</mi><mi>v</mi></msubsup><mo>,</mo><msubsup><mi>&mu;</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>,</mo><msubsup><mi>U</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>)</mo></mrow><mo>]</mo></mrow><msub><mi>&lambda;</mi><mi>v</mi></msub></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,b<sub>t</sub>(i)是连续型二分量耦合HMM中隐状态i的观察概率密度函数,其形式是混合高斯密度函数;<img file="FDA00002355311000047.GIF" wi="125" he="60" />是连续型二分量耦合HMM的v通道分量HMM中隐状态i<sub>v</sub>的观察概率密度函数,其形式是混合高斯密度函数;λ<sub>v</sub>是连续型二分量耦合HMM的v通道分量HMM对应的指数,λ<sub>v</sub>∈[0.5,1];<img file="FDA00002355311000048.GIF" wi="51" he="52" />表示连续型二分量耦合HMM的v通道分量HMM在t时刻的观察向量,1≤t≤p;<img file="FDA00002355311000049.GIF" wi="41" he="50" />表示连续型二分量耦合HMM的v通道分量HMM在t时刻的隐状态取值;<img file="FDA000023553110000410.GIF" wi="67" he="60" />表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态i<sub>v</sub>的混合高斯密度函数的混合数;<img file="FDA000023553110000411.GIF" wi="313" he="60" />分别表示在连续型二分量耦合HMM的v通道分量HMM中,隐状态i<sub>v</sub>的第m个高斯密度函数的混合权重、均值向量和对角协方差矩阵,<maths num="0005"><![CDATA[<math><mrow><mn>1</mn><mo>&le;</mo><mi>m</mi><mo>&le;</mo><msubsup><mi>M</mi><msub><mi>i</mi><mi>v</mi></msub><mi>v</mi></msubsup><mo>.</mo></mrow></math>]]></maths>步骤三、初始化增强耦合HMM分类器;在步骤二操作的基础上,同时初始化C个增强耦合HMM分类器,C表示情感类别的数量;即:对应每一种情感,初始化一个增强耦合HMM分类器;用φ<sub>c</sub>表示第c种情感对应的增强耦合HMM分类器,1≤c≤C;使用第c种情感的训练样本集对增强耦合HMM分类器φ<sub>c</sub>进行初始化的过程包括步骤3.1至步骤3.7,具体为:步骤3.1:第c种情感的训练样本集经过步骤一的操作后,得到音频特征数据流X<sup>a</sup>和表情特征数据流X<sup>f</sup>;将特征数据流X<sup>v</sup>中的观察向量序列<img file="FDA00002355311000051.GIF" wi="45" he="56" />表示为<img file="FDA00002355311000052.GIF" wi="412" he="79" /><img file="FDA00002355311000053.GIF" wi="69" he="57" />表示第r个训练样本x<sub>r</sub>在连续型二分量耦合HMM的v通道分量HMM中的t时刻的观察向量,1≤t≤p;然后根据特征数据流X<sup>v</sup>对应的v通道分量HMM的隐状态数N<sub>v</sub>,依次将特征数据流X<sup>v</sup>中的每个观察向量序列<img file="FDA00002355311000054.GIF" wi="46" he="55" />平均分为N<sub>v</sub>段,1≤r≤R;对每个观察向量序列<img file="FDA00002355311000055.GIF" wi="388" he="78" />中的第i′段对应的隐节点状态赋初值为i′,1≤i′≤N<sub>v</sub>,从而可得每个观察向量序列<img file="FDA00002355311000056.GIF" wi="389" he="79" />的初始隐节点状态序列,用<img file="FDA00002355311000057.GIF" wi="328" he="72" />表示;步骤3.2:使用K-means聚类算法,依次对每个观察向量序列<img file="FDA00002355311000058.GIF" wi="389" he="78" />中每个隐状态i′所对应的观察向量聚类为<img file="FDA00002355311000059.GIF" wi="68" he="60" />个类别,分别用<img file="FDA000023553110000510.GIF" wi="210" he="60" />表示;用<img file="FDA000023553110000511.GIF" wi="52" he="53" />表示观察向量序列<img file="FDA000023553110000512.GIF" wi="389" he="78" />在t时刻的隐状态对应的混合高斯密度函数的混合分量;根据观察向量序列<img file="FDA000023553110000513.GIF" wi="389" he="78" />中隐状态i′所对应的观察向量的聚类结果,得到观察向量序列<img file="FDA000023553110000514.GIF" wi="389" he="78" />的混合分量序列<img file="FDA000023553110000515.GIF" wi="276" he="72" /><maths num="0006"><![CDATA[<math><mrow><msubsup><mi>c</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>&Element;</mo><mo>{</mo><mn>1,2</mn><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msubsup><mi>M</mi><msub><mi>i</mi><mi>v</mi></msub><mi>v</mi></msubsup><mo>}</mo><mo>,</mo></mrow></math>]]></maths>1≤t≤p;步骤3.3:将特征数据流X<sup>v</sup>输入到增强耦合HMM分类器φ<sub>c</sub>中的某一连续型二分量耦合HMM中,用符号<img file="FDA000023553110000517.GIF" wi="51" he="63" />表示增强耦合HMM分类器φ<sub>c</sub>中的第k′个连续型二分量耦合HMM,1≤k′≤K;步骤3.4:利用公式(4)至公式(9)重估连续型二分量耦合HMM<img file="FDA000023553110000518.GIF" wi="52" he="63" />的参数;<maths num="0007"><![CDATA[<math><mrow><msubsup><mi>&mu;</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><msubsup><mi>&gamma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup></mrow><mrow><msub><mi>&Sigma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><msubsup><mi>&gamma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<img file="FDA000023553110000520.GIF" wi="60" he="57" />的值通过公式(5)确定;<img file="FDA000023553110000521.GIF" wi="1876" he="159" />其中,<img file="FDA000023553110000522.GIF" wi="55" he="52" />表示第r个训练样本x<sub>r</sub>在连续型二分量耦合HMM的v通道分量HMM中的t时刻的隐状态取值;<maths num="0008"><![CDATA[<math><mrow><msubsup><mi>U</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><msubsup><mi>&gamma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow><mrow><mo>(</mo><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>-</mo><msubsup><mi>&mu;</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>)</mo></mrow><msup><mrow><mo>(</mo><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>-</mo><msubsup><mi>&mu;</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>)</mo></mrow><mi>T</mi></msup></mrow><mrow><msub><mi>&Sigma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><msubsup><mi>&gamma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0009"><![CDATA[<math><mrow><msubsup><mi>w</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><msubsup><mi>&gamma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><msub><mi>&Sigma;</mi><msup><mi>m</mi><mo>&prime;</mo></msup></msub><msubsup><mi>&gamma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><msup><mi>m</mi><mo>&prime;</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<maths num="0010"><![CDATA[<math><mrow><mn>1</mn><mo>&le;</mo><msup><mi>m</mi><mo>&prime;</mo></msup><mo>&le;</mo><msubsup><mi>M</mi><msub><mi>i</mi><mi>v</mi></msub><mi>v</mi></msubsup><mo>.</mo></mrow></math>]]></maths><maths num="0011"><![CDATA[<math><mrow><msup><mi>a</mi><mi>v</mi></msup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>|</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><msubsup><mi>&epsiv;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>1</mn></msub></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><msub><mi>&Sigma;</mi><mi>j</mi></msub><msubsup><mi>&epsiv;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>1</mn></msub></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<img file="FDA00002355311000065.GIF" wi="208" he="62" />的值通过公式(9)确定;j∈S;<img file="FDA00002355311000066.GIF" wi="1879" he="139" />步骤3.5:使用基于耦合HMM的Viterbi算法对各观察向量序列<img file="FDA00002355311000067.GIF" wi="45" he="56" />的初始隐节点状态序列<img file="FDA00002355311000068.GIF" wi="328" he="71" />进行优化,操作步骤包括步骤3.5.1至步骤3.5.4,具体为:步骤3.5.1:将步骤3.4得到的连续型二分量耦合HMM<img file="FDA00002355311000069.GIF" wi="52" he="63" />的参数<img file="FDA000023553110000610.GIF" wi="262" he="60" /><img file="FDA000023553110000611.GIF" wi="87" he="60" />和a<sup>v</sup>(i<sub>v</sub>|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和b<sub>t</sub>(i);步骤3.5.2:令变量t<sub>1</sub>的初始值为2,通过公式(10)和公式(11)迭代计算<img file="FDA000023553110000612.GIF" wi="106" he="62" />和<img file="FDA000023553110000613.GIF" wi="141" he="62" />2≤t<sub>1</sub>≤p;<maths num="0012"><![CDATA[<math><mrow><msub><mi>&delta;</mi><msub><mi>t</mi><mn>1</mn></msub></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>max</mi><mi>j</mi></munder><mo>{</mo><msub><mi>&delta;</mi><mrow><msub><mi>t</mi><mn>1</mn></msub><mo>-</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mi>a</mi><mrow><mo>(</mo><mi>i</mi><mo>|</mo><mi>j</mi><mo>)</mo></mrow><mo>}</mo><msub><mi>b</mi><msub><mi>t</mi><mn>1</mn></msub></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<img file="FDA000023553110000615.GIF" wi="106" he="62" />表示连续型二分量耦合HMM<img file="FDA000023553110000616.GIF" wi="52" he="63" />在t<sub>1</sub>时刻为状态i的最大概率与b<sub>t</sub>(i)的乘积;δ<sub>1</sub>(i)=π(i)b<sub>1</sub>(i);<maths num="0013"><![CDATA[<math><mrow><msub><mi>&psi;</mi><msub><mi>t</mi><mn>1</mn></msub></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mi>arg</mi><munder><mi>max</mi><mi>j</mi></munder><mo>{</mo><msub><mi>&delta;</mi><mrow><msub><mi>t</mi><mn>1</mn></msub><mo>-</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mi>a</mi><mrow><mo>(</mo><mi>i</mi><mo>|</mo><mi>j</mi><mo>)</mo></mrow><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<img file="FDA000023553110000618.GIF" wi="113" he="62" />表示连续型二分量耦合HMM<img file="FDA000023553110000619.GIF" wi="52" he="64" />在t<sub>1</sub>时刻为状态i的最大概率的路径的前一状态;<img file="FDA000023553110000620.GIF" wi="482" he="86" />表示使得<img file="FDA000023553110000621.GIF" wi="313" he="74" />最大时,j的取值;ψ<sub>1</sub>(i)=0;步骤3.5.3:通过公式(12)计算训练样本x<sub>r</sub>在当前二分量耦合HMM<img file="FDA000023553110000622.GIF" wi="52" he="63" />模型下的概率,用符号P表示;通过公式(13)计算训练样本x<sub>r</sub>在当前二分量耦合HMM<img file="FDA000023553110000623.GIF" wi="52" he="63" />模型下的概率P对应的p时刻的隐节点状态,用符号q<sub>p</sub>表示;<maths num="0014"><![CDATA[<math><mrow><mi>P</mi><mo>=</mo><munder><mi>max</mi><mi>i</mi></munder><mo>{</mo><msub><mi>&delta;</mi><mi>p</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>}</mo><mo>=</mo><munder><mi>max</mi><mrow><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>q</mi><mi>p</mi></msub></mrow></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>O</mi><mn>1</mn></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>O</mi><mi>p</mi></msub><mo>|</mo><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>q</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<maths num="0015"><![CDATA[<math><mrow><msub><mi>O</mi><mi>t</mi></msub><mo>=</mo><mrow><mo>(</mo><msubsup><mi>O</mi><mi>t</mi><mi>a</mi></msubsup><mo>,</mo><msubsup><mi>O</mi><mi>t</mi><mi>f</mi></msubsup><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths><maths num="0016"><![CDATA[<math><mrow><msub><mi>q</mi><mi>p</mi></msub><mo>=</mo><mi>arg</mi><munder><mi>max</mi><mi>i</mi></munder><mo>{</mo><msub><mi>&delta;</mi><mi>p</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<img file="FDA00002355311000073.GIF" wi="311" he="79" />表示使得δ<sub>p</sub>(i)最大时,i的取值;步骤3.5.4:使用变量t<sub>2</sub>,令t<sub>2</sub>的初始值为(p-1),通过公式(14)回溯得到<img file="FDA00002355311000074.GIF" wi="70" he="43" />1≤t<sub>2</sub>≤p-1;<maths num="0017"><![CDATA[<math><mrow><msub><mi>q</mi><msub><mi>t</mi><mn>2</mn></msub></msub><mo>=</mo><msub><mi>&psi;</mi><mrow><msub><mi>t</mi><mn>2</mn></msub><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><msub><mi>q</mi><mrow><msub><mi>t</mi><mn>2</mn></msub><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<img file="FDA00002355311000076.GIF" wi="41" he="44" />表示训练样本x<sub>r</sub>在当前二分量耦合HMM<img file="FDA00002355311000077.GIF" wi="52" he="63" />模型下的概率P对应的t<sub>2</sub>时刻的隐节点状态;通过步骤3.5.1至步骤3.5.4的操作,得到各训练样本x<sub>r</sub>在当前二分量耦合HMM<img file="FDA00002355311000078.GIF" wi="52" he="63" />模型下的优化隐节点状态序列(q<sub>1</sub>,q<sub>2</sub>,...,q<sub>p</sub>);即得到各观察向量序列<img file="FDA00002355311000079.GIF" wi="46" he="56" />在当前二分量耦合HMM<img file="FDA000023553110000710.GIF" wi="52" he="63" />的v通道分量HMM的优化隐节点状态序列<img file="FDA000023553110000711.GIF" wi="353" he="72" />步骤3.6:通过公式(15)对各观察向量序列<img file="FDA000023553110000712.GIF" wi="46" he="55" />的混合分量序列<img file="FDA000023553110000713.GIF" wi="204" he="54" />进行优化;<maths num="0018"><![CDATA[<math><mrow><msubsup><mi>c</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mi>arg</mi><munder><mi>max</mi><mi>m</mi></munder><mi>P</mi><mrow><mo>(</mo><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>|</mo><msubsup><mi>q</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>=</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><msubsup><mi>c</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mi>m</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<maths num="0019"><![CDATA[<math><mrow><mi>arg</mi><munder><mi>max</mi><mi>m</mi></munder><mi>P</mi><mrow><mo>(</mo><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>|</mo><msubsup><mi>q</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>=</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><msubsup><mi>c</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mi>m</mi><mo>)</mo></mrow></mrow></math>]]></maths>表示使得<maths num="0020"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>|</mo><msubsup><mi>q</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>=</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><msubsup><mi>c</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mi>m</mi><mo>)</mo></mrow></mrow></math>]]></maths>最大时,m的取值;步骤3.7:判断各训练样本x<sub>r</sub>在当前二分量耦合HMM<img file="FDA000023553110000717.GIF" wi="52" he="64" />模型下的概率P是否均收敛;如果不均收敛,利用公式(4)至公式(9)重估连续型二分量耦合HMM<img file="FDA000023553110000718.GIF" wi="52" he="63" />的参数,然后回到步骤3.5;如果均收敛,则将重估得到的参数<img file="FDA000023553110000719.GIF" wi="256" he="60" /><img file="FDA000023553110000720.GIF" wi="87" he="60" />和a<sup>v</sup>(i<sub>v</sub>|j)作为增强耦合HMM分类器φ<sub>c</sub>中各连续型二分量耦合HMM的模型初始参数;经过步骤3.1至步骤3.7的操作,即完成对增强耦合HMM分类器φ<sub>c</sub>的初始化操作;步骤四、训练增强耦合HMM分类器;在步骤三对增强耦合HMM分类器初始化的基础上,同时训练C个增强耦合HMM分类器φ<sub>c</sub>,1≤c≤C;使用第c种情感的训练样本集对增强耦合HMM分类器φ<sub>c</sub>进行训练的过程包括步骤4.1至步骤4.8,具体为:步骤4.1:用K<sub>c</sub>表示增强耦合HMM分类器φ<sub>c</sub>中包含的连续型二分量耦合HMM的个数,并设定K<sub>c</sub>的初始值为K;使用变量k,并设定变量k的初始值为1;然后执行步骤4.2至步骤4.8的操作;步骤4.2:用<img file="FDA00002355311000081.GIF" wi="46" he="63" />表示增强耦合HMM分类器φ<sub>c</sub>中的第k个连续型二分量耦合HMM;用w<sub>k</sub>(r)表示输入到连续型二分量耦合HMM<img file="FDA00002355311000082.GIF" wi="46" he="63" />的特征数据流X<sup>v</sup>中的第r个观察向量序列<img file="FDA00002355311000083.GIF" wi="46" he="56" />的权重,1≤r≤R;当k=1时,w<sub>k</sub>(r)=1/R;将带有权重w<sub>k</sub>(r)的音频特征数据流X<sup>a</sup>输入到连续型二分量耦合HMM<img file="FDA00002355311000084.GIF" wi="46" he="63" />的音频通道分量HMM;将带有权重w<sub>k</sub>(r)的表情特征数据流X<sup>f</sup>输入到连续型二分量耦合HMM<img file="FDA00002355311000085.GIF" wi="47" he="63" />的表情通道分量HMM;步骤4.3:使用改进的EM算法迭代调整步骤4.2中所述连续型二分量耦合HMM<img file="FDA00002355311000086.GIF" wi="46" he="63" />的模型参数,得到连续型二分量耦合HMM<img file="FDA00002355311000087.GIF" wi="46" he="63" />的最优模型参数,操作步骤包括步骤4.3.1至步骤4.3.6,具体为:步骤4.3.1:将步骤三得到的连续型二分量耦合HMM<img file="FDA00002355311000088.GIF" wi="46" he="64" />的模型初始参数<img file="FDA00002355311000089.GIF" wi="400" he="60" />和a<sup>v</sup>(i<sub>v</sub>|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和b<sub>t</sub>(i);步骤4.3.2:通过公式(16)计算所述连续型二分量耦合HMM<img file="FDA000023553110000810.GIF" wi="46" he="63" />中各训练样本的观察序列的前向概率,用<img file="FDA000023553110000811.GIF" wi="132" he="61" />表示,1≤r≤R;<maths num="0021"><![CDATA[<math><mrow><msub><mi>&alpha;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>1</mn></msub></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>b</mi><msub><mi>t</mi><mn>1</mn></msub></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><msub><mi>&Sigma;</mi><mi>j</mi></msub><mi>a</mi><mrow><mo>(</mo><mi>i</mi><mo>|</mo><mi>j</mi><mo>)</mo></mrow><msub><mi>&alpha;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>1</mn></msub><mo>-</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>16</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,α<sub>r,1</sub>(i)=π(i)b<sub>1</sub>(i);2≤t<sub>1</sub>≤p;步骤4.3.3:通过公式(17)计算所述连续型二分量耦合HMM<img file="FDA000023553110000813.GIF" wi="46" he="63" />中各训练样本的观察序列的后向概率,用<img file="FDA000023553110000814.GIF" wi="137" he="62" />表示;<maths num="0022"><![CDATA[<math><mrow><msub><mi>&beta;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub></mrow></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>&Sigma;</mi><mi>i</mi></msub><msub><mi>b</mi><mrow><msub><mi>t</mi><mn>2</mn></msub><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mi>a</mi><mrow><mo>(</mo><mi>i</mi><mo>|</mo><mi>j</mi><mo>)</mo></mrow><msub><mi>&beta;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>17</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,β<sub>r,p</sub>(i)=1;1≤t<sub>2</sub>≤p-1;步骤4.3.4:通过公式(18)计算所述连续型二分量耦合HMM<img file="FDA000023553110000816.GIF" wi="46" he="63" />中各训练样本的观察序列的概率P<sub>r</sub>;P<sub>r</sub>=α<sub>r,p</sub>(q<sub>p</sub>)=β<sub>r,1</sub>(q<sub>1</sub>)                          (18)步骤4.3.5:使用公式(19)至公式(23),利用各训练样本在步骤4.3.2中得到的前向概率<img file="FDA000023553110000817.GIF" wi="162" he="61" />步骤4.3.3中得到的后向概率<img file="FDA000023553110000818.GIF" wi="136" he="61" />和步骤4.3.4得到的观察序列的概率P<sub>r</sub>重估连续型二分量耦合HMM<img file="FDA000023553110000819.GIF" wi="47" he="63" />的模型参数<img file="FDA000023553110000820.GIF" wi="361" he="60" />和a<sup>v</sup>(i<sub>v</sub>|j);<maths num="0023"><![CDATA[<math><mrow><msubsup><mi>&mu;</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mi>r</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>P</mi><mi>r</mi></msub><mo>)</mo></mrow><msub><mi>&Sigma;</mi><mi>t</mi></msub><msubsup><mi>&xi;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup></mrow><mrow><msub><mi>&Sigma;</mi><mi>r</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>P</mi><mi>r</mi></msub><mo>)</mo></mrow><msub><mi>&Sigma;</mi><mi>t</mi></msub><msubsup><mi>&xi;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>19</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,<img file="FDA00002355311000092.GIF" wi="60" he="57" />可通过公式(20)计算得到;<maths num="0024"><![CDATA[<math><mrow><msubsup><mi>&xi;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mrow><mi>Is</mi><mo>.</mo><mi>t</mi><mo>.</mo><msub><mi>I</mi><mi>v</mi></msub><mo>=</mo><msub><mi>i</mi><mi>v</mi></msub></mrow></msub><msub><mi>&alpha;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>I</mi><mo>)</mo></mrow><msub><mi>&beta;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>I</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mi>I</mi></msub><msub><mi>&alpha;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>I</mi><mo>)</mo></mrow><msub><mi>&beta;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>I</mi><mo>)</mo></mrow></mrow></mfrac><mo>&times;</mo><mfrac><mrow><msubsup><mi>w</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mi>N</mi><mrow><mo>(</mo><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>,</mo><msubsup><mi>&mu;</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>,</mo><msubsup><mi>U</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><msup><mi>m</mi><mo>&prime;</mo></msup></msub><msubsup><mi>w</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><msup><mi>m</mi><mo>&prime;</mo></msup></mrow><mi>v</mi></msubsup><mi>N</mi><mrow><mo>(</mo><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>,</mo><msubsup><mi>&mu;</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><msup><mi>m</mi><mo>&prime;</mo></msup></mrow><mi>v</mi></msubsup><mo>,</mo><msubsup><mi>U</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><msup><mi>m</mi><mo>&prime;</mo></msup></mrow><mi>v</mi></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>20</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,I∈S;I<sub>v</sub>∈S<sup>v</sup>;Is.t.I<sub>v</sub>=i<sub>v</sub>表示连续型二分量耦合HMM<img file="FDA00002355311000094.GIF" wi="47" he="64" />的隐状态I在v通道分量HMM的隐状态I<sub>v</sub>等于i<sub>v</sub>;<maths num="0025"><![CDATA[<math><mrow><msubsup><mi>U</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mi>r</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>P</mi><mi>r</mi></msub><mo>)</mo></mrow><msub><mi>&Sigma;</mi><mi>t</mi></msub><msubsup><mi>&xi;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow><mrow><mo>(</mo><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>-</mo><msubsup><mi>&mu;</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>)</mo></mrow><msup><mrow><mo>(</mo><msubsup><mi>O</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mo>-</mo><msubsup><mi>&mu;</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>)</mo></mrow><mi>T</mi></msup></mrow><mrow><msub><mi>&Sigma;</mi><mi>r</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>P</mi><mi>r</mi></msub><mo>)</mo></mrow><msub><mi>&Sigma;</mi><mi>t</mi></msub><msubsup><mi>&xi;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>21</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0026"><![CDATA[<math><mrow><msubsup><mi>w</mi><mrow><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi></mrow><mi>v</mi></msubsup><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mi>r</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>P</mi><mi>r</mi></msub><mo>)</mo></mrow><msub><mi>&Sigma;</mi><mi>t</mi></msub><msubsup><mi>&xi;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><mi>m</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mi>r</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>P</mi><mi>r</mi></msub><mo>)</mo></mrow><msub><mi>&Sigma;</mi><mi>t</mi></msub><msub><mi>&Sigma;</mi><msup><mi>m</mi><mo>&prime;</mo></msup></msub><msubsup><mi>&xi;</mi><mrow><mi>r</mi><mo>,</mo><mi>t</mi></mrow><mi>v</mi></msubsup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>,</mo><msup><mi>m</mi><mo>&prime;</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>22</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0027"><![CDATA[<math><mrow><msup><mi>a</mi><mi>v</mi></msup><mrow><mo>(</mo><msub><mi>i</mi><mi>v</mi></msub><mo>|</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mi>r</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>P</mi><mi>r</mi></msub><mo>)</mo></mrow><msub><mi>&Sigma;</mi><mrow><mi>Is</mi><mo>.</mo><mi>t</mi><mo>.</mo><msub><mi>I</mi><mi>v</mi></msub><mo>=</mo><msub><mi>i</mi><mi>v</mi></msub></mrow></msub><msub><mi>&Sigma;</mi><msub><mi>t</mi><mn>2</mn></msub></msub><msub><mi>&alpha;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub></mrow></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mi>a</mi><mrow><mo>(</mo><mi>I</mi><mo>|</mo><mi>j</mi><mo>)</mo></mrow><msub><mi>b</mi><mrow><msub><mi>t</mi><mn>2</mn></msub><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>I</mi><mo>)</mo></mrow><msub><mi>&beta;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>I</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mi>r</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>P</mi><mi>r</mi></msub><mo>)</mo></mrow><msub><mi>&Sigma;</mi><msub><mi>t</mi><mn>2</mn></msub></msub><msub><mi>&alpha;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub></mrow></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><msub><mi>&beta;</mi><mrow><mi>r</mi><mo>,</mo><msub><mi>t</mi><mn>2</mn></msub></mrow></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>23</mn><mo>)</mo></mrow></mrow></math>]]></maths>步骤4.3.6:判断连续型二分量耦合HMM<img file="FDA00002355311000098.GIF" wi="46" he="63" />的模型参数<img file="FDA00002355311000099.GIF" wi="407" he="60" />和a<sup>v</sup>(i<sub>v</sub>|j)是否均收敛;如非均收敛,则将步骤4.3.5得到的<img file="FDA000023553110000910.GIF" wi="371" he="60" />和a<sup>v</sup>(i<sub>v</sub>|j)代入到公式(1)至公式(3),计算得到π(i)、a(i|j)和b<sub>t</sub>(i),然后返回到步骤4.3.2;否则,则将步骤4.3.5得到的<img file="FDA000023553110000911.GIF" wi="417" he="60" />和a<sup>v</sup>(i<sub>v</sub>|j)作为连续型二分量耦合HMM<img file="FDA000023553110000912.GIF" wi="46" he="63" />的最优模型参数;步骤4.4:使用步骤4.2中所述输入到连续型二分量耦合HMM<img file="FDA000023553110000913.GIF" wi="47" he="64" />的特征数据流X<sup>v</sup>验证步骤4.3得到的连续型二分量耦合HMM<img file="FDA000023553110000914.GIF" wi="74" he="64" />具体验证方法为:用<img file="FDA000023553110000915.GIF" wi="142" he="87" />表示训练样本x<sub>r</sub>是否被连续型二分量耦合HMM<img file="FDA000023553110000916.GIF" wi="46" he="64" />正确分类,如果观察向量序列x<sub>r</sub>被正确分类,设定<img file="FDA000023553110000917.GIF" wi="232" he="88" />否则,设定<img file="FDA000023553110000918.GIF" wi="266" he="88" />步骤4.5:通过公式(24)计算连续型二分量耦合HMM<img file="FDA000023553110000919.GIF" wi="46" he="63" />的训练误差,用<img file="FDA000023553110000920.GIF" wi="54" he="63" />表示;<maths num="0028"><![CDATA[<math><mrow><msubsup><mi>E</mi><mi>k</mi><mi>c</mi></msubsup><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msubsup><mi>h</mi><mi>k</mi><mi>c</mi></msubsup><mrow><mo>(</mo><msub><mi>x</mi><mi>r</mi></msub><mo>)</mo></mrow><mo>=</mo><mo>-</mo><mn>1</mn></mrow></munder><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>24</mn><mo>)</mo></mrow></mrow></math>]]></maths>步骤4.6:使用临时变量k″,并设定k″=k+1;步骤4.7:通过公式(25)依次计算输入到第k″个连续型二分量耦合HMM<img file="FDA000023553110000922.GIF" wi="57" he="63" />的训练样本x<sub>r</sub>的权重,用w<sub>k″</sub>(r)表示,1≤r≤R;<maths num="0029"><![CDATA[<math><mrow><msub><mi>w</mi><msup><mi>k</mi><mrow><mo>&prime;</mo><mo>&prime;</mo></mrow></msup></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></mrow><msub><mi>Z</mi><msup><mi>k</mi><mrow><mo>&prime;</mo><mo>&prime;</mo></mrow></msup></msub></mfrac><mo>&times;</mo><msup><mi>e</mi><mrow><mo>-</mo><msubsup><mi>h</mi><mi>k</mi><mi>c</mi></msubsup><mrow><mo>(</mo><msub><mi>x</mi><mi>r</mi></msub><mo>)</mo></mrow><mo>&times;</mo><msub><mi>&delta;</mi><mi>k</mi></msub></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>25</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,Z<sub>k″</sub>是归一化因子,<maths num="0030"><![CDATA[<math><mrow><msub><mi>Z</mi><msup><mi>k</mi><mrow><mo>&prime;</mo><mo>&prime;</mo></mrow></msup></msub><mo>=</mo><munder><mi>&Sigma;</mi><mi>r</mi></munder><mrow><mo>(</mo><msub><mi>w</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>&times;</mo><msup><mi>e</mi><mrow><mo>-</mo><msubsup><mi>h</mi><mi>k</mi><mi>c</mi></msubsup><mrow><mo>(</mo><msub><mi>x</mi><mi>r</mi></msub><mo>)</mo></mrow><mo>&times;</mo><msub><mi>&delta;</mi><mi>k</mi></msub></mrow></msup><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths><maths num="0031"><![CDATA[<math><mrow><msub><mi>&delta;</mi><mi>k</mi></msub><mo>=</mo><mfrac><mrow><mi>ln</mi><mo>[</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msubsup><mi>E</mi><mi>k</mi><mi>c</mi></msubsup><mo>)</mo></mrow><mo>/</mo><msubsup><mi>E</mi><mi>k</mi><mi>c</mi></msubsup><mo>]</mo></mrow><mn>2</mn></mfrac><mo>;</mo></mrow></math>]]></maths>步骤4.8:如果此时k≠K,并且<img file="FDA00002355311000104.GIF" wi="54" he="63" />的值不大于某一预先设定值σ,0<σ≤0.5,则令k=k″,w<sub>k</sub>(r)=w<sub>k″</sub>(r),然后返回到步骤4.2;否则,得到增强耦合HMM分类器φ<sub>c</sub>,令K<sub>c</sub>=k;经过上述步骤的操作,即完成对增强耦合HMM分类器φ<sub>c</sub>的训练;所述识别过程的具体实施步骤如下:步骤五、对待识别情感视频x进行预处理,得到待识别情感视频的表情观察向量序列x<sup>f</sup>表示和音频观察向量序列x<sup>a</sup>;所述得到待识别情感视频的表情观察向量序列的具体步骤与训练过程的步骤一中所述得到表情观察向量序列的具体步骤一致;所述得到待识别情感视频的音频观察向量序列的具体步骤与训练过程的步骤一中所述得到音频观察向量序列的具体步骤为一致;步骤六、判断待识别情感视频的情感类别,操作过程包括步骤6.1至步骤6.3,具体为:步骤6.1:将待识别情感视频的音频观察向量序列x<sup>a</sup>作为每一种情感的增强耦合HMM分类器φ<sub>c</sub>中的连续型二分量耦合HMM的音频通道分量HMM的观察序列;将待识别情感视频的表情观察向量序列x<sup>f</sup>作为每一种情感的增强耦合HMM分类器φ<sub>c</sub>中的每一个连续型二分量耦合HMM的表情通道分量HMM的观察序列;步骤6.2:通过公式(26)计算待识别情感视频x,在增强耦合HMM分类器φ<sub>c</sub>下的概率P<sub>c</sub>;<maths num="0032"><![CDATA[<math><mrow><msub><mi>P</mi><mi>c</mi></msub><mo>=</mo><mi>P</mi><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msub><mi>&phi;</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>K</mi><mi>c</mi></msub></munderover><msub><mi>&delta;</mi><mi>k</mi></msub><mi>P</mi><mrow><mo>(</mo><mi>x</mi><mo>|</mo><msubsup><mi>&theta;</mi><mi>k</mi><mi>c</mi></msubsup><mo>)</mo></mrow></mrow><msub><mi>K</mi><mi>c</mi></msub></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>26</mn><mo>)</mo></mrow></mrow></math>]]></maths>步骤6.3:从步骤6.2得到的概率P<sub>c</sub>中找到最大值,得到该最大值的增强耦合HMM分类器对应的情感即为待识别情感视频所属的情感类别。
地址 100081 北京市海淀区中关村南大街5号软件学院