发明名称 一种基于李群论的多模态情感识别方法
摘要 本发明公开了一种基于李群论的多模态情感识别方法,包括以下步骤:获取视频,并提取视频帧中图像区域的高斯型特征描述子,基于高斯型特征描述子对视频中的图像区域进行跟踪,根据视频子序列构建ARMA模型获取ARMA模型间的距离,根据ARMA模型之间的距离构建核函数,并进行情感表达分类,根据人体、脸部和手部的情感类别概率对人进行情感识别。本发明根据视频中所包含的人体姿态运动信息、手势和脸部表情信息来判断人的情感状态,是一个将视频数据映射到人体运动特征、手势特征和脸部表情特征,再从人体运动特征空间和脸部表情特征映射到状态空间的过程,并提出利用李群论进行多模态情感识别,提高模型进行情感识别的精确性。
申请公布号 CN102968643B 申请公布日期 2016.02.24
申请号 CN201210466293.3 申请日期 2012.11.16
申请人 华中科技大学 发明人 王天江;刘芳;许春燕;杨勇;龚立宇;邵光普;舒禹程;曹守刚
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 朱仁玲
主权项 一种基于李群论的多模态情感识别方法,其特征在于,包括以下步骤:步骤一,获取视频,并提取视频帧中图像区域的高斯型特征描述子,包括下述子步骤:(1.1)对于图像区域中的每个像素点而言,计算一个d维特征向量F(x,y),该特征向量<maths num="0001" id="cmaths0001"><img file="FDA0000774045820000011.GIF" wi="900" he="100" /></maths>其中d为正整数,R,G,B是像素点的颜色信息,x,y是像素点在水平和垂直方向的位置信息,|I<sub>x</sub>|,|I<sub>y</sub>|分别是像素点在水平方向和垂直方向的梯度信息,该图像区域所有像素点的特征向量构成图像的特征向量集合;(1.2)确定该图像区域对应的均值d维向量μ和协方差d维方阵,其中<img file="FDA0000774045820000012.GIF" wi="262" he="135" />协方差矩阵<img file="FDA0000774045820000013.GIF" wi="518" he="135" />F<sub>k</sub>是图像区域中第k个像素点的特征向量,n是图像区域内像素点的总和,T表示矩阵的转置。(1.3)基于步骤(1.1)和(1.2)的结果并结合李群论构建高斯型特征描述子;具体为,利用Cholesky分解将矩阵Σ分解成一个下三角矩阵P和上三角矩阵P<sup>T</sup>的乘积,即:Σ=PP<sup>T</sup>,且任何一个图像区域的协方差矩阵Σ对应着一个下三角矩阵P,其后,利用得到的下三角矩阵P和步骤(1.2)中得到的均值d维向量μ,构建该图像区域的高斯型特征描述子<maths num="0002" id="cmaths0002"><img file="FDA0000774045820000014.GIF" wi="301" he="150" /></maths>步骤二,基于步骤一中得到的高斯型特征描述子,对视频中的图像区域进行跟踪,包括下述子步骤:(2.1)在视频的第一帧中选取脸部区域、手部区域和人体区域;(2.2)根据选取的脸部区域、手部区域和人体区域结合高斯型特征描述子构建跟踪模版;(2.3)根据构建的跟踪模版,利用粒子滤波方法对脸部区域、手部区域和人体区域进行跟踪,根据跟踪结果更新跟踪模版,并记录跟踪结果,以得到脸部区域、手部区域和人体区域对应的视频子序列X,该视频子序列的长度为b;;步骤三,根据步骤二得到的视频子序列构建ARMA模型;步骤四,获取ARMA模型间的距离;具体包括以下子步骤:(4.1)根据ARMA模型的参数获取估计观测矩阵<img file="FDA0000774045820000021.GIF" wi="809" he="79" />其中C是a*b维的观测矩阵,A是b*b维的转移矩阵;(4.2)对于任何两个视频子序列对应的观测正交矩阵C<sub>1</sub>和C<sub>2</sub>,约束L为正定矩阵,在任何两个ARMA模型之间最短的欧氏距离可以表示为:D(X<sub>1</sub>,X<sub>2</sub>)<sup>2</sup>=min<sub>M</sub>||(C<sub>1</sub>‑C<sub>2</sub>L)<sup>T</sup>(C<sub>1</sub>‑C<sub>2</sub>L)||<sub>F</sub>=min<sub>M</sub>||C<sub>1</sub><sup>T</sup>C<sub>1</sub>‑C<sub>1</sub><sup>T</sup>C<sub>2</sub>L‑L<sup>T</sup>C<sub>2</sub><sup>T</sup>C<sub>1</sub>+L<sup>T</sup>C<sub>2</sub><sup>T</sup>C<sub>2</sub>L||<sub>F</sub>=min<sub>M</sub>||I‑C<sub>1</sub><sup>T</sup>C<sub>2</sub>L‑L<sup>T</sup>C<sub>2</sub><sup>T</sup>C<sub>1</sub>+L<sup>T</sup>L||<sub>F</sub>其中,|| ||<sub>F</sub>代表Frobenius矩阵范式,I表示单位矩阵。(4.3)根据拉格朗日乘子法获得L=C<sub>2</sub><sup>T</sup>C<sub>1</sub>,即ARMA模型之间的距离可表示为:D(X<sub>1</sub>,X<sub>2</sub>)<sup>2</sup>=||I‑L<sup>T</sup>L||<sub>F</sub>;步骤五,根据ARMA模型之间的距离构建核函数,并进行情感表达分类,具体包括以下子步骤:(5.1)构建核函数K(X<sub>1</sub>,X<sub>2</sub>)=exp(‑γD(X<sub>1</sub>,X<sub>2</sub>)),其中γ是缩放常量;(5.2)基于此核函数,并利用SVM分类器,对人体、脸部和手部区域对应的视频子序列分别进行分类,以分别产生人体、脸部和手部的情感类别概率;步骤六,根据人体、脸部和手部的情感类别概率对人进行情感识别,具体包括以下子步骤:(6.1)SVM根据人体、脸部和手部的情感类别概率对每种情感状态得到一个后验概率,用p<sub>mn</sub>表示,其中m=1,2,3分别代表人体特征、手部特征和面部表情,n=1,2,…8分别代表不同的情感状态;(6.2)根据后验概率利用加权决策准则确定最终的情感状态,具体为,加权准则分别对每种情感状态由三种特征得到的概率求加权平均值,取加权平均值最大的情感状态作为最终输出的情感状态,具体公式如下:<maths num="0003" id="cmaths0003"><img file="FDA0000774045820000031.GIF" wi="541" he="118" /></maths>其中用w<sub>1</sub>、w<sub>2</sub>和w<sub>3</sub>分别表示人体运动特征、声音特征和面部表情对应的权值,f最大的情感状态作为最终输出的情感状态。
地址 430074 湖北省武汉市洪山区珞喻路1037号