一种语音同步驱动三维人脸口型与面部姿势动画的方法,申请号CN201310080656.4-传众专利搜索

发明名称	一种语音同步驱动三维人脸口型与面部姿势动画的方法
摘要	本发明公开了一种语音同步驱动三维人脸口型与面部姿势动画的方法，通过用户输入新的语音信息，经过预处理之后，在虚拟人的人脸头像上合成与语音同步的口型动画和面部姿势动画。本发明具体包括两个阶段，在训练阶段，通过KNN和HMM的混合模型实现语音可视化建模；在合成阶段，通过用户输入新的语音信息，先进行语音信号的特征提取，再经过KNN和HMM混合模型生成与语音信号相对应的人脸面部姿势和口型帧序列参数，经过平滑处理后，使用Xface开源软件合成更加细腻、丰富的三维人脸动画。本发明不仅具有重要的理论研究价值，而且在可视通信、虚拟会议、游戏娱乐和教学辅助等领域有着广阔的应用前景。
申请公布号	CN103218842B	申请公布日期	2015.11.25
申请号	CN201310080656.4	申请日期	2013.03.12
申请人	西南交通大学	发明人	侯进;米辉辉
分类号	G06T13/40(2011.01)I;G06K9/62(2006.01)I	主分类号	G06T13/40(2011.01)I
代理机构	成都信博专利代理有限责任公司 51200	代理人	张澎
主权项	一种语音同步驱动三维人脸口型与面部姿势动画的方法，通过对用户的声音进行预处理，使之在虚拟人的人脸头像上合成与语音同步的口型和面部姿势动画，包括以下主要步骤：(1)视素归类，将部分声韵母根据它们所对应的口型进行视素归类，共分为16类，F<sub>0</sub>‑F<sub>15</sub>；(2)建立音频/视频语料库，用高清摄录机进行录制，由20个人，10男10女，读取步骤1中的已经分好类的声韵母，同时录制好音频和视频，在录制语音的时候，采集与语音同步的脸部视频信息；(3)提取音频/视频帧特征参数，从步骤2录制得到的音频数据中提取出语音信号的音高、音强和13维的Mel频率倒谱系数MFCC，同时，截取与语音同步的视频帧，提取视频帧中各声韵母所对应的基于MPEG‑4定义的口型特征参数和面部姿势特征参数，然后计算各特征点坐标与标准帧坐标的差值Vel＝{V<sub>1</sub>,V<sub>2</sub>,...,V<sub>n</sub>}，再计算按MPEG‑4定义的人脸上的对应尺度参考量P＝{P<sub>1</sub>,P<sub>2</sub>,...,P<sub>n</sub>}，通过公式(1)，Fap<sub>i</sub>＝(V<sub>i(x\|y)</sub>/P<sub>i(x\|y)</sub>*1024 (1)得到人脸运动参数；其中，Fap<sub>i</sub>表示与第i个特征点对应的人脸运动参数，V<sub>i(x\|y)</sub>表示的V<sub>i</sub>的x或y坐标，P<sub>i(x\|y)</sub>表示与V<sub>i(x\|y)</sub>对应的尺度参考量；(4)将步骤3中的语音信号的特征参数13—MFCC进行降维处理，利用PCA方法将语音信号的特征向量、口型帧的特征向量进行降维处理，将语音信号中13—MFCC降低为4维向量，将口型特征参数降为4维向量；(5)运用k‑means算法将步骤4中的语音特征参数和口型特征参数进行聚类分析；(6)运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别；(7)对于新输入的语音信号s，根据K‑nearest neighbour准则求取相似度；通过求其相似度，然后选出相似度最大的前k个向量，这k个向量属于哪个类别的口型最多，则这个类别的口型就是与语音信号相匹配的口型；(8)将面部姿势分为六种类型：眨眼和凝视、扬眉和皱眉、点头和摇头，通过脸部部位的各种动作组合来表达不同的人脸面部信息；(9)用HMM对面部姿势进行建模，将提取的语音信号的音高和音强与人脸六种基本面部姿势进行训练和识别；(10)训练阶段：首先，从录制的语料库中选取部分语料，使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率；提取出语音信号的特征参数和面部姿势的特征参数，接着把语音特征参数作为观察值序列，通过Baum‑Welch重估算法训练各相应的HMM，然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列；用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系；(11)识别阶段：对新输入的语音信号进行特征提取，分析其音高和音强，然后根据训练好的HMM，将新的语音特征参数作为HMM的观察值序列，通过Veterbi算法搜索并获取最优状态序列；计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O\|M)；找出最大相似或然率，对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势；(12)依据以上步骤得到与语音信号相对应的人脸面部姿势和口型帧序列参数，经过平滑处理后，使用Xface开源软件合成最终的人脸动画。
地址	610031 四川省成都市二环路北一段111号西南交通大学科技处