富有情感表达能力的三维可视化中文普通话发音词典的发音方法,申请号CN201310134116.X-传众专利搜索

发明名称	富有情感表达能力的三维可视化中文普通话发音词典的发音方法
摘要	本发明提供一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，涉及语音可视化、语言教学、发音器官动画、人脸动画技术领域，该方法不仅产生发音器官动画，也同时产生具有生动表情的人脸动画，该方法有如下特性：(1)基于真实捕捉的运动数据和发音器官的生理运动机理和隐马尔可夫模型，使得建立的发音器官动画具有与人脸动画相关的协调一致性，且能够充分描述连续语音动画中的协同发音现象；(2)利用生理模型的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势，将数据驱动模型嵌入到生理模型中，从而生成高真实感的人脸动画。对该系统的客观性能测试和主观互动测试验证了其在智能辅助语言教学方面的有效性。
申请公布号	CN103258340B	申请公布日期	2015.12.09
申请号	CN201310134116.X	申请日期	2013.04.17
申请人	中国科学技术大学	发明人	於俊;江辰;汪增福
分类号	G06T13/40(2011.01)I	主分类号	G06T13/40(2011.01)I
代理机构	北京科迪生专利代理有限责任公司 11251	代理人	杨学明;李新华
主权项	一种富有情感表达能力的三维可视化中文普通话发音词典的发音方法，其特征在于，基于真实捕捉的运动数据和发音器官的生理运动机理，并采用隐马尔可夫模型建立的发音器官运动模型；该发音器官运动模型，其表现的动画具有与人脸动画相关的协调一致性，且能够充分描述连续语音动画中的协同发音现象；该发音器官运动模型结合了生理模型在直接控制表情内容和力度变化方面所具有的优势和数据驱动模型在刻画人脸局部细节特征和真实感方面所具有的优势；将数据驱动模型嵌入到生理模型中，从而生成内容与力度多变、高真实感的人脸动画；其中，首先采集母语是中文普通话的训练者的数据集，并据此来构建可视化发音词典系统，然后该系统能够指导母语不是中文普通话的学习者能够有效地学习该语言的发音过程；具体过程是，训练者在朗读数据集中发音语料的时候，利用录音设备录入音频，与此同时同步地利用电磁关节造影术EMA记录下3D发音器官的运动轨迹，并且利用语音识别工具或人工标注得到音素级的时间同步信息；在录制发音器官运动数据时，将10个传感器贴在头部某些位置，用来记录头部和发音器官舌、上唇和下唇的运动；选取三个参考点：两侧耳后和鼻梁，记为H<sub>1,2,3</sub>；记录发音时头的旋转和平移运动；记录舌面上从舌尖到舌背上三个位置的运动，记为T<sub>1,2,3</sub>，T<sub>1</sub>距舌尖大约1cm，T<sub>1</sub>与T<sub>2</sub>，T<sub>2</sub>与T<sub>3</sub>之间相距大约1cm；此外，还有四个传感器L<sub>1,2,3,4</sub>分别记录左嘴角、上唇、下唇和右嘴角的运动，其中，T<sub>1,2,3</sub>和L<sub>1,2,3,4</sub>处传感器记录得到的运动是头部运动和发音器官运动两者之和；以H<sub>1,2,3</sub>为依据，经过适当的旋转和平移可以得到T<sub>1,2,3</sub>和L<sub>1,2,3,4</sub>在发音过程中的运动轨迹；然后对应到采用的人脸三维模型上的位置；基于隐马尔可夫模型HMM的发音器官运动合成，包括：特征提取阶段、训练阶段和合成阶段；在特征提取阶段，将T<sub>1,2,3</sub>和L<sub>1,2,3,4</sub>在发音过程中与首帧数据的相对运动轨迹，以及时域上的一阶和二阶差分作为特征向量o<sub>t</sub>，即o<sub>t</sub>＝[c<sub>t</sub>′,△c<sub>t</sub>′,△<sup>2</sup>c<sub>t</sub>′]′，△c<sub>t</sub>＝0.5·(c<sub>t+1</sub>‑c<sub>t‑1</sub>)，△<sup>2</sup>c<sub>t</sub>＝c<sub>t+1</sub>‑2·c<sub>t</sub>+c<sub>t‑1</sub>，c<sub>t</sub>是t时刻的T<sub>1,2,3</sub>和L<sub>1,2,3</sub>与首帧的T<sub>1,2,3</sub>和L<sub>1,2,3</sub>的差值；在训练阶段，首先每个单音素HMM模型采取从左到右的拓扑结构，且每个都有3个状态，均采用混合高斯模型来建模；然后使用基于最大似然准则的期望最大化算法来训练得到这些HMM模型；最后对这些音素模型进行上下文聚类得到上下文相关的HMM模型；在合成阶段，首先将文本输入到语音合成器来，并得到音素序列和各个音素的时长，然后根据音素序列/时长、训练得到的HMM模型和基于最大似然准则的MLPG算法来合成发音器官运动轨迹c，即：[W′Σ<sup>‑1</sup>W]·c＝W′Σ<sup>‑1</sup>μ (1)μ和Σ是对应于t时刻每个状态的均值和方差，W是权值矩阵。
地址	230026 安徽省合肥市包河区金寨路96号