汉语音位－视位参数的计算机转换方法和系统,申请号CN02117330.3-传众专利搜索

发明名称	汉语音位－视位参数的计算机转换方法和系统
摘要	汉语音位－视位参数的计算机转换方法及系统属于语音—人脸动态图像信息的转换和处理技术领域。其特征在于,它包含根据确定的音位系列同步完成语音和人脸图像的录音、录像,并把录像数据转换为音视频同步的数字图像数据输入计算机,确定汉语静态视位的抽取时刻,从国际标准MPEG－4中选取描述汉语视位的人脸动画参数FAP参数集,测量人脸特征点,计算汉语静态视位的人脸动画参数FAP参数值,建立汉语基本视位集,构筑用于描述某一视位对应FAP参数变化的基于权值融合的动态视位模型,确定动态视位模型各参数的学方法各步骤,相应地提出了音位—视位计算机转换系统,从而实现从汉语音位生成其对应FAP参数的方法和系统。它对于待转换的文本,由汉语基本视位集提供对应的视位号,从而生成汉语文本所对应的FAP参数。
申请公布号	CN1379348A	申请公布日期	2002.11.13
申请号	CN02117330.3	申请日期	2002.05.17
申请人	清华大学;北京炎黄新星网络科技有限公司	发明人	蔡莲红;王志明;张毅
分类号	G06F17/28	主分类号	G06F17/28
代理机构		代理人
主权项	1.汉语音位-视位参数的计算机转换方法，含有在发音人读出所有声韵时，放置与人脸正面成45度角的镜子录像，同步完成人脸正面和侧面图像的录像和录音，通过与计算机相连的数字图像采集卡，把录像数据转换为音视频同步的数字图像数据的步骤，其特征在于，它依次包含以下步骤：(1)选定需要录像和录音的汉语音位，建立包括复合元音的视位在内的基本视位集所需的音位系列；(2)在读出步骤(1)所述音位系列中所有声韵母时，放置与人脸正面成45度角的镜子录像，同步完成人脸正面和侧面图像的录像和录音，再通过与计算机相连的数字图像采集卡，把录像数据转换为音视频同步的数字图像数据；(3)从音视频流中确定汉语静态视位的抽取时刻；(3.1)由AVI文件中与时间有关的语音信号数据，按下式计算从第n<sub>0</sub>个样本开始的一帧语音的短时能量<img file="A0211733000021.GIF" wi="60" he="55" />，随时间依次得到短时能量随时间变化的曲线，取语音短时能量曲线的中心时刻作为韵母静态视位的抽取时刻；<maths num="001"><![CDATA[ <math><mrow><msub><mi>E</mi><msub><mi>n</mi><mn>0</mn></msub></msub><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><msub><mi>n</mi><mn>0</mn></msub></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn><mo>+</mo><msub><mi>n</mi><mn>0</mn></msub></mrow></munderover><mrow><mo>(</mo><msup><mi>S</mi><mn>2</mn></msup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><msub><mi>n</mi><mn>0</mn></msub><mo>≤</mo><mi>n</mi><mo>≤</mo><mi>N</mi><mo>-</mo><mn>1</mn><mo>+</mo><msub><mi>n</mi><mn>0</mn></msub></mrow></math>]]></maths>其中N为计算语音短时能量的语音帧长(样本点数)，n<sub>0</sub>为起始样本号，S(n)表示第n个样本的语音信号幅度值；(3.2)语音短时能量曲线随时间变化的起始时刻作为声母静态视位的抽取时刻；(4)从国际标准化组织运动图像专家组MPEG(Moving Picture Expert Group)制定的国际标准MPEG-4(ISO/IEC 14496-2)所定义的68个人脸动画参数FAP(Facial AnimationParameters)中选取24个FAP参数来描述汉语视位，现列出如下：#3 open_jaw下腭张开度 #16push_b_lip下唇突出度#4 lower_t_midlip内上唇中点下移量 #17push_t_lip上唇突出度#5 raise_b_midlip内下唇中点上移量 #51lower_t_lip_o外上唇中点下移量#6 stretch_l_cornerlip左内唇角拉开度 #52raise_b_midlip_o外下唇中点上移量#7 stretch_r_conerlip右内唇角拉开度 #53stretch_l_cornerlip_o左外唇角拉开度#8 lower_t_lip_lm内上唇左中点下移量 #54stretch_r_conerlip_o右外唇角拉开度#9 lower_t_lip_rm内上唇右中点下移量 #55lower_t_lip_lm_o外上唇左中点下移量#10raise_b_lip_lm内下唇左中点上移量 #56lower_t_lip_rm_o外上唇右中点下移量#11raise_b_lip_rm内下唇右中点上移量 #57raise_b_lip_lm_o外下唇左中点上移量#12raise_l_cornerlip左内唇角上移度 #58raise_b_lip_rm_o外下唇右中点上移量#13raise_r_cornerlip右内唇角上移度 #59raise_l_cornerlip_o左外唇角上移度#14thrust_jaw下腭突出度 #60raise_r_cornerlip_o右外唇角上移度(5)利用计算机自动测量或手动测量视频流中面部特征点的运动，计算出相应的汉语静态视位的FAP参数：(5.1)定义以下的人脸特征点：双鼻孔点，外唇左右角点和上、下唇中点，内唇左右角点和上、下唇中点，侧面图中的鼻尖点，上、下唇突出点和下腭突出点和下腭下角点；还有，外唇上轮廓线上左、右半边的中点，内唇上轮廓线上左、右半边的中点，外唇下轮廓线上左、右半边的中点，内唇下轮廓线上左、右半边的中点；(5.2)利用公知技术对上述人脸特征点定位，再根据MPEG-4标准的规定计算相应的汉语静态视位参数FAP；(6)通过计算机自动聚类分析产生汉语基本视位集，包括根据聚类误差建立汉语音位的视觉混淆树和选择适当的类别数，它依次包含以下步骤：(6.1)设初始表类别数为总视位个数，对声母为M＝20，韵母M＝15，即把每个视位作为一类，设总误差J(M)＝0；(6.2)选择两类合并，M＝M-1，设合并后形成类别号为m，类中视位个数为Nm，计算合并后形成的第m个类的类中心：<maths num="002"><![CDATA[ <math><mrow><msub><mi>μ</mi><mi>m</mi></msub><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>m</mi></msub></mfrac><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>m</mi></msub></munderover><mi>Fa</mi><msub><mi>p</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>(6.3)在所有可能的两两合并中，选择使得按标准欧氏距离由下式计算出的总的误差最小：<img file="A0211733000032.GIF" wi="615" he="125" />，并记录这一类别数的总误差J(M)，其中Fap<sub>i</sub>(k)表示第k个视位的第p个FAP参数值，P为所采用的总的FAP参数个数；(6.4)重复步骤(6.2)、(6.3)步，直到总的类别数减为1；(6.5)根据以上几步所得到的不同类别数下每一类中的音位成员，画出按各个音位视位相似性进行合并过程的树状图；(6.6)画出误差随类别数变化的曲线，画出视位分类线去选择误差剧烈增加之前的类别数作为最佳的类别；(6.7)视位分类线下对应的视位即通过对汉语静态视位分类而得到的汉语基本视位集共20个，现列出如下：#0 NA(自动状态) #7 r #14 er#1 b，p，m #8 z， c， s #15 i#2 f #9 a， ang #16 o#3 d，t，n，l #10 ai， an #17 ou#4 g，k，h #11 ao #18 u#5 j，q，x #12 e， eng #19 ü#6 zh，ch，sh #13 ei， en(7)建立一个用于描述某一视位对应的FAP参数变化过程的基于权值融合的动态视位模型WB-DVM(Weight Blending-Dynamic Viseme Model)：每个动态视位的FAP参数由一个基本控制权值函数和前、后两个无声模型控制权值函数来决定，三个控制权值函数的基本函数形式都是指数函数，可表示为：<maths num="003"><![CDATA[ <math><mrow><mi>W</mi><mo>=</mo><msup><mi>αe</mi><mrow><mi>θ</mi><mo>\|</mo><mi>τ</mi><msup><mo>\|</mo><mi>c</mi></msup></mrow></msup></mrow></math>]]></maths>其中：α给出视位中心处的控制权值幅度；θ为控制权值衰减或增加的速度；\|τ\|表示当前时刻到控制权值函数中心点时刻的时间距离；c为一常数；α、θ、\|τ\|、c都大于零；前无声模型控制权值函数W<sub>l</sub>为：<maths num="004"><![CDATA[ <math><mrow><msub><mi>W</mi><mi>l</mi></msub><mo>=</mo><msub><mi>α</mi><mi>l</mi></msub><msup><mi>e</mi><mrow><msub><mi>θ</mi><mi>l</mi></msub><mo>\|</mo><mi>τ</mi><msup><mo>\|</mo><mi>c</mi></msup></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mi>τ</mi><mo><</mo><mn>0</mn><mo>,</mo></mrow></math>]]></maths><maths num="005"><![CDATA[ <math><mrow><msub><mi>W</mi><mi>l</mi></msub><mo>=</mo><msub><mi>α</mi><mi>l</mi></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>θ</mi><mi>l</mi></msub><mo>\|</mo><mi>τ</mi><msup><mo>\|</mo><mi>c</mi></msup></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mi>τ</mi><mo>></mo><mn>0</mn><mo>,</mo><mi>τ</mi><mo>=</mo><msub><mi>t</mi><mi>si</mi></msub><mo>-</mo><msub><mi>t</mi><mi>l</mi></msub><mo>-</mo><mi>t</mi><mo>,</mo></mrow></math>]]></maths>后无声模型控制权值函数W<sub>r</sub>为：<maths num="006"><![CDATA[ <math><mrow><msub><mi>W</mi><mi>r</mi></msub><mo>=</mo><msub><mi>α</mi><mi>r</mi></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>θ</mi><mi>r</mi></msub><mo>\|</mo><mi>τ</mi><msup><mo>\|</mo><mi>c</mi></msup></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mi>τ</mi><mo><</mo><mn>0</mn><mo>,</mo></mrow></math>]]></maths><maths num="007"><![CDATA[ <math><mrow><msub><mi>W</mi><mi>r</mi></msub><mo>=</mo><msub><mi>α</mi><mi>r</mi></msub><msup><mi>e</mi><mrow><msub><mi>θ</mi><mi>r</mi></msub><mo>\|</mo><mi>τ</mi><msup><mo>\|</mo><mi>c</mi></msup></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mi>τ</mi><mo>></mo><mn>0</mn><mo>,</mo><mi>τ</mi><mo>=</mo><msub><mi>t</mi><mi>ei</mi></msub><mo>-</mo><msub><mi>t</mi><mi>r</mi></msub><mo>-</mo><mi>t</mi><mo>,</mo></mrow></math>]]></maths>第i个声母视位基本控制权值函数W<sub>i</sub>为：<maths num="008"><![CDATA[ <math><mrow><msub><mi>W</mi><mi>i</mi></msub><mo>=</mo><msub><mi>α</mi><mi>i</mi></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>θ</mi><mrow><mi>i</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mo>\|</mo><mi>τ</mi><msup><mo>\|</mo><mi>c</mi></msup></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mi>τ</mi><mo><</mo><mn>0</mn><mo>,</mo></mrow></math>]]></maths><maths num="009"><![CDATA[ <math><mrow><msub><mi>W</mi><mi>i</mi></msub><mo>=</mo><msub><mi>α</mi><mi>i</mi></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>θ</mi><mrow><mi>i</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mo>\|</mo><mi>τ</mi><msup><mo>\|</mo><mi>c</mi></msup></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mi>τ</mi><mo>></mo><mn>0</mn><mo>,</mo><mi>τ</mi><mo>=</mo><msub><mi>t</mi><mi>si</mi></msub><mo>-</mo><msub><mi>t</mi><mi>ii</mi></msub><mo>-</mo><mi>t</mi><mo>,</mo></mrow></math>]]></maths>第i个韵母视位基本控制权值函数W<sub>i</sub>为：<maths num="010"><![CDATA[ <math><mrow><msub><mi>W</mi><mi>i</mi></msub><mo>=</mo><msub><mi>α</mi><mi>i</mi></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>θ</mi><mrow><mi>i</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mo>\|</mo><mi>τ</mi><msup><mo>\|</mo><mi>c</mi></msup></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mi>τ</mi><mo><</mo><mn>0</mn><mo>,</mo></mrow></math>]]></maths><maths num="011"><![CDATA[ <math><mrow><msub><mi>W</mi><mi>i</mi></msub><mo>=</mo><msub><mi>α</mi><mi>i</mi></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>θ</mi><mrow><mi>i</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mo>\|</mo><mi>τ</mi><msup><mo>\|</mo><mi>c</mi></msup></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mi>τ</mi><mo>></mo><mn>0</mn><mo>,</mo><mi>τ</mi><mo>=</mo><msub><mi>t</mi><mi>ci</mi></msub><mo>-</mo><msub><mi>t</mi><mi>fi</mi></msub><mo>-</mo><mi>t</mi><mo>,</mo></mrow></math>]]></maths>其中t<sub>si</sub>、t<sub>ei</sub>、t<sub>ci</sub>分别为语音段的起始时刻、结束时刻和中心时刻，t<sub>ii</sub>为从语音段的开始时刻t<sub>si</sub>到声母控制权值函数参数中心点的距离，t<sub>fi</sub>为从语音段的中心时刻t<sub>ci</sub>到韵母控制权值函数参数中心点的距离，它与韵母的发音长度有关，可记为t<sub>fi</sub>＝k<sub>fi</sub>(t<sub>ei</sub>-t<sub>si</sub>)，-0.5≤k<sub>fi</sub>≤0.5；t<sub>l</sub>、t<sub>r</sub>分别表示从前无声模型中心到语音起始时刻和从后无声模型中心到语音结束时刻的时间距离，τ表示当前时刻t到控制权值函数中心点时刻的距离；单独发某一音位i时，任意时刻的第p个FAP参数的动态参数值由这三者按其控制权值函数值加权计算得出：<maths num="012"><![CDATA[ <math><mrow><msub><mi>F</mi><mi>ip</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>W</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo></mo><msub><mi>T</mi><mi>ip</mi></msub></mrow><mrow><msub><mi>W</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>W</mi><mi>l</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>W</mi><mi>r</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow></math>]]></maths>其中T表示视位在其控制权值中心时刻的视位参数值，T<sub>ip</sub>即指视位i第p个FAP参数的中心处参数值；在连续语流中，各个视位的口形受到其周围视位的影响，最终的FAP参数可以由各个FAP参数按基本控制权值函数值加权得到：<maths num="013"><![CDATA[ <math><mrow><msub><mi>F</mi><mi>p</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>I</mi></munderover><mrow><mo>(</mo><msub><mi>W</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><msub><mi>T</mi><mi>ip</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>/</mo><mrow><mo>(</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>I</mi></munderover><msub><mi>W</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></math>]]></maths>其中的i包含了前、后无声模型，I为协同发音所考虑的视位及无声模型总个数；相邻视位之间的无声模型由前后无声模型相交构成；(8)动态视位模型中的各个参数的确定：(8.1)需要确定的参数为：控制权值函数的指数参数c，与前后无声模型有关的参数：α<sub>l</sub>、α<sub>r</sub>、θ<sub>l</sub>、θ<sub>r</sub>、t<sub>l</sub>、t<sub>r</sub>；确定每个视位的参数：α<sub>i</sub>(中心处控制权值函数值)、θ<sub>i(-)</sub>、θ<sub>i(+)</sub>(由控制函数中心向前和向后的衰减系数)、t<sub>fi</sub>或k<sub>fi</sub>(控制权值函数中心与语音中心的时间距离)或t<sub>ii</sub>(控制权值函数中心与语音起始时刻的时间距离)，以及第p个FAP参数的中心处参数值T<sub>ip</sub>；(8.2)估计模型参数，即采用分组、分阶段、分步骤进行机器学习的方法从实际数据中获取：先根据用上述步骤确定的汉语基本静态视位集，对每个静态视位类所对应的音位分别进行发音录像，并用上述FAP参数测量方法得到实际发音过程中的FAP参数，再依次按以下步聚估算：(8.2.1)根据经验设定所有FAP参数共用的模型参数的初始值：指数参数c＝1.0，t<sub>l</sub>＝100ms，t<sub>r</sub>＝60ms；α<sub>l</sub>＝α<sub>r</sub>＝1，θ<sub>l</sub>＝θ<sub>r</sub>＝0.03；(8.2.2)设置第i个韵母所对应的视位即韵母视位的模型参数α<sub>i</sub>＝1，θ<sub>i(-)</sub>＝θ<sub>i(+)</sub>＝0.03，k<sub>fi</sub>＝0，设置FAP参数中心处参数值为静态视位的FAP参数值，并进行学习，以模型产生的FAP参数与实测FAP参数的误差平方和作为相似度准则或能量函数，即<img file="A0211733000052.GIF" wi="711" he="125" />，其中N为实际测量的音位发音过程中动态视位长度，单位为图像帧，Fap<sub>i，k</sub>(p)表示第i个韵母视位的第k帧FAP参数p的实测数值，Fap′<sub>i，k</sub>(p)表示模型生成的第i个韵母视位的第k帧FAP参数p的数值；(8.2.3)利用公知的梯度下降法调节各个参数，经多次叠代使得总的误差J<sub>i</sub>最小，其中各个参数的调节范围为：α<sub>i</sub>(0.5～1.5)，θ<sub>i(-)</sub>、θ<sub>i(+)</sub>(0.01～0.05)，k<sub>fi</sub>(-0.5～0.5)；(8.2.4)重复步骤(8.2.2)～(8.2.3)，直到学完所有韵母视位的模型参数，并记录总的误差和<img file="A0211733000053.GIF" wi="188" he="120" />，其中K为总的韵母视位个数；(8.2.5)用上述梯度下降法调节指数参数c和前后无声模型参数t<sub>l</sub>、t<sub>r</sub>、α<sub>l</sub>、α<sub>r</sub>、θ<sub>l</sub>、θ<sub>r</sub>后返回步骤(8.2.2)，经多次叠代使总的误差和J最小，各个参数的调节范围为：c(0.8～1.2)，t<sub>l</sub>、t<sub>r</sub>(0～200ms)，α<sub>l</sub>、α<sub>r</sub>(0.5～1.5)，θ<sub>l</sub>、θ<sub>r</sub>、(0.01～0.05)；(8.2.6)学习第i个声母所对应的视位参数时，对包括第i个声母的音节进行发音录像，并测得整个音节发音过程的视位参数；(8.2.7)设置第i个声母即声母视位的模型参数α<sub>i</sub>＝1，θ<sub>i(-)</sub>＝θ<sub>i(+)</sub>＝0.03，t<sub>ii</sub>＝0，设置FAP参数中心处参数值为静态视位的FAP参数值，并进行学习；根据模型参数和上述步骤学得的指数参数c和前后无声模型参数t<sub>l</sub>、t<sub>r</sub>、α<sub>l</sub>、α<sub>r</sub>、θ<sub>l</sub>、θ<sub>r</sub>以及韵母模型参数计算出整个音节的视位参数，以模型参数产生的FAP参数与实测FAP参数的误差平方和作为相似度准则或能量函数，<img file="A0211733000061.GIF" wi="705" he="123" />，其中N为实际测量的音节发音过程中动态视位长度，单位为图像帧，Fap<sub>i，k</sub>(p)表示整个音节的第k帧FAP参数p的实测数值，Fap′<sub>i，k</sub>(p)表示模型生成的整个音节的第k帧FAP参数p的数值；(8.2.8)利用公知的梯度下降法调节各个参数，经多次叠代使得总的误差J<sub>i</sub>最小，其中各个参数的调节范围为：α<sub>i</sub>(0.5～1.5)，θ<sub>i(-)</sub>、θ<sub>i(+)</sub>(0.01～0.05)，t<sub>ii</sub>(0～200ms)；(8.2.9)重复步骤(8.2.6)～(8.2.8)，直到学完所有声母视位的模型参数。
地址	100084北京市100084－82信箱