发明名称 维吾尔语音位‑视位参数的转换方法和系统
摘要 本发明涉及一种维吾尔语音位‑视位参数的转换方法和系统,属于语音‑人脸动画信息处理技术领域。增加了41个特征和齿与舌的可见度特征,对元音口形数据聚类得到元音基本静态视位集。分别对辅音与不同元音相结合的口形数据聚类,得到了辅音基本静态视位集。并在此基础上,提出了复合视位的概念,建立了维吾尔语基本动态视位集。然后,给出了复合动态视位模型,以及基于线性回归算法的动态视位模型参数估计方法,从而实现了维吾尔语音位‑视位的转换。根据本发明的基本动态视位集及其模型参数,对于待转换的维吾尔语文本,进行文本分析后,得到文本所包含的基本动态视位序列,进而可以生成与文本内容一致的人脸唇部可视语音动画。
申请公布号 CN106328163A 申请公布日期 2017.01.11
申请号 CN201610675541.3 申请日期 2016.08.16
申请人 新疆大学 发明人 赵晖;刘学杰;秦添
分类号 G10L21/10(2013.01)I 主分类号 G10L21/10(2013.01)I
代理机构 吉林长春新纪元专利代理有限责任公司 22100 代理人 王怡敏
主权项 一种维吾尔语音位‑视位参数的转换方法,其特征在于:包括如下步骤:(1)选择维吾尔语全部元音V,元音+辅音VC,辅音+元音CV,辅音+元音+辅音+辅音CVCC作为录像录音的语音系列;(2)选择发音标准的维吾尔语录制人,在读出上述的语音系列时,同步录制人脸正面和侧面图像及语音;(3)从录制的音视频中确定维吾尔语静态视位抽取时刻;(4)选择并扩展MPEG‑4,以描述维吾尔语视位;(5)定义维吾尔语静态视位用于聚类分析特征集合;(6)采用K均值聚类算法,分别将维吾尔语音节V,CV,和VC分类,根据聚类结果,得到维吾尔语元音基本静态视位集和辅音基本静态视位集;(7)根据维吾尔语基本静态视位集,确定维吾尔语的基本动态视位集为13个单音素视位和74个复合视位组成;由于辅音与元音结合为音节时,协同发音现象较为复杂,难以用单辅音和单元音的融合来准确描述其口形动态变化过程;因此,提出了复合视位的概念,将CV和VC音节作为基本动态视位;在分析静态视位时,将元音分为6类,辅音分为7类,因此,CV和VC复合视位中的C和V分别为7类和6类;还有些元音和辅音的组合不存在,这样复合视位共74类,现列如下:<img file="FDA0001080384390000011.GIF" wi="1470" he="1126" /><img file="FDA0001080384390000021.GIF" wi="1709" he="2310" />(8)建立用于描述维吾尔语单音素动态视位和复合动态视位对应的FAP参数变化过程的动态视位模型;单音素动态视位模型由一个元音或辅音控制权值函数和左右无声模型控制函数组成;复合动态视位模型由一个元音和一个辅音控制权值函数和左右无声模型控制函数组成;为简化参数计算,将动态视位模型设为分段函数,每段函数由相邻二个控制权值函数组成;其中,元音控制权值函数为:<maths num="0001"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>1</mn></mrow></msub><mo>=</mo><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>c</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>f</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow></mtd><mtd><mrow><msub><mi>t</mi><mrow><mi>c</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>f</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0001080384390000031.GIF" wi="990" he="103" /></maths><maths num="0002"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>2</mn></mrow></msub><mo>=</mo><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><msub><mi>t</mi><mrow><mi>c</mi><mi>i</mi></mrow></msub><mo>+</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>f</mi><mi>p</mi></mrow></msub><mo>)</mo></mrow></mrow></msup></mrow></mtd><mtd><mrow><mi>t</mi><mo>-</mo><msub><mi>t</mi><mrow><mi>c</mi><mi>i</mi></mrow></msub><mo>+</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>f</mi><mi>p</mi></mrow></msub><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0001080384390000032.GIF" wi="1014" he="102" /></maths>辅音控制权值函数为:<maths num="0003"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>1</mn></mrow></msub><mo>=</mo><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow></mtd><mtd><mrow><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0001080384390000033.GIF" wi="1022" he="111" /></maths>或<maths num="0004"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><msup><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>1</mn></mrow></msub><mo>&prime;</mo></msup><mo>=</mo><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>e</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow></mtd><mtd><mrow><msub><mi>t</mi><mrow><mi>e</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0001080384390000034.GIF" wi="1006" he="103" /></maths><maths num="0005"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub><mo>=</mo><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>+</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>)</mo></mrow></mrow></msup></mrow></mtd><mtd><mrow><mi>t</mi><mo>-</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>+</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0001080384390000035.GIF" wi="1006" he="102" /></maths>或<maths num="0006"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><msup><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub><mo>&prime;</mo></msup><mo>=</mo><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><msub><mi>t</mi><mrow><mi>e</mi><mi>i</mi></mrow></msub><mo>+</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>)</mo></mrow></mrow></msup></mrow></mtd><mtd><mrow><mi>t</mi><mo>-</mo><msub><mi>t</mi><mrow><mi>e</mi><mi>i</mi></mrow></msub><mo>+</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0001080384390000036.GIF" wi="1038" he="111" /></maths>左无声控制权值函数:<maths num="0007"><math><![CDATA[<mrow><msub><mi>W</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mo>=</mo><msub><mi>&alpha;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><msup><mi>e</mi><mrow><msub><mi>&theta;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow>]]></math><img file="FDA0001080384390000037.GIF" wi="382" he="103" /></maths>右无声控制权值函数:<maths num="0008"><math><![CDATA[<mrow><msub><mi>W</mi><mrow><mi>r</mi><mi>p</mi></mrow></msub><mo>=</mo><msub><mi>&alpha;</mi><mrow><mi>r</mi><mi>p</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>r</mi><mi>p</mi></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>e</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>r</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow>]]></math><img file="FDA0001080384390000038.GIF" wi="422" he="103" /></maths>其中各参数的含义如下:T<sub>ipv</sub>元音视位在控制权值中心时刻的视位参数值;α<sub>ipv</sub>元音视位模型的控制权值幅度;θ<sub>ipv(‑)</sub>元音控制权值增加的速度;θ<sub>ipv(+)</sub>元音控制权值衰减的速度;t<sub>ci</sub>语音段的中心时刻;t<sub>ifp</sub>语音段中心时刻t<sub>ci</sub>到元音权值中心时刻的距离;T<sub>ipc</sub>辅音视位在控制权值中心时刻的视位参数值;α<sub>ipc</sub>辅音视位模型的控制权值幅度;θ<sub>ipc(‑)</sub>辅音控制权值增加的速度;θ<sub>ipc(+)</sub>辅音控制权值衰减的速度;t<sub>si</sub>语音段的起始时刻;t<sub>iip</sub>语音段起始时刻t<sub>si</sub>到辅音权值中心时刻的距离或语音段结束时刻t<sub>ei</sub>到辅音权值中心时刻的距离;α<sub>lp</sub>左无声模型的控制权值幅度;α<sub>rp</sub>右无声模型的控制权值幅度;θ<sub>lp</sub>左无声模型控制权值衰减的速度;θ<sub>rp</sub>右无声模型控制权值增加的速度;t<sub>ei</sub>语音段的结束时刻;t<sub>lp</sub>语音段起始时刻t<sub>si</sub>到左无声模型中心时刻的距离;t<sub>rp</sub>语音段的结束时刻t<sub>ei</sub>到右无声模型中心时刻的距离;(8.1)单音素——元音或辅音,视位模型由有声模型及左、右无声模型构成;单音素动态视位模型分为两段,如下所示,其中每段视位参数曲线由两个权值函数组成;对于辅音视位的权值函数由以下两段构成:<maths num="0009"><math><![CDATA[<mrow><msub><mi>FAP</mi><mrow><mi>c</mi><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>1</mn></mrow></msub></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000041.GIF" wi="390" he="127" /></maths><maths num="0010"><math><![CDATA[<mrow><msub><mi>FAP</mi><mrow><mi>c</mi><mn>2</mn></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>r</mi><mi>p</mi></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000042.GIF" wi="405" he="127" /></maths>其中T<sub>ipc</sub>为辅音视位在控制权值中心时刻的视位参数值对于元音视位的权值函数由以下两段构成:<maths num="0011"><math><![CDATA[<mrow><msub><mi>FAP</mi><mrow><mi>v</mi><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mi>1</mi></mrow></msub></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000043.GIF" wi="390" he="134" /></maths><maths num="0012"><math><![CDATA[<mrow><msub><mi>FAP</mi><mrow><mi>v</mi><mn>2</mn></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>2</mn></mrow></msub></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>r</mi><mi>p</mi></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000044.GIF" wi="405" he="134" /></maths>其中T<sub>ipv</sub>为元音视位在控制权值中心时刻的视位参数值(8.2)复合视位模型——CV类或VC类,由元音和辅音模型及左、右无声模型构成;复合动态视位模型分为三段,如下所示,其中每段视位参数曲线也由两个权值函数组成;对于CV类复合视位权值函数由以下三段构成: FAP<sub>cv1</sub>(t)=FAP<sub>c1</sub>(t)<maths num="0013"><math><![CDATA[<mrow><msub><mi>FAP</mi><mrow><mi>c</mi><mi>v</mi><mn>2</mn></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>1</mn></mrow></msub></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>1</mn></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000045.GIF" wi="645" he="143" /></maths> FAP<sub>cv3</sub>(t)=FAP<sub>v2</sub>(t)对于VC类复合视位权值函数由以下三段构成: FAP<sub>vc1</sub>(t)=FAP<sub>v1</sub>(t)<maths num="0014"><math><![CDATA[<mrow><msub><mi>FAP</mi><mrow><mi>v</mi><mi>c</mi><mn>2</mn></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><mo>.</mo><msup><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>1</mn></mrow></msub><mo>&prime;</mo></msup></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>1</mn></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000046.GIF" wi="598" he="127" /></maths><maths num="0015"><math><![CDATA[<mrow><msub><mi>FAP</mi><mrow><mi>v</mi><mi>c</mi><mn>3</mn></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><mo>&CenterDot;</mo><msup><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub><mo>&prime;</mo></msup></mrow><mrow><msup><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub><mo>&prime;</mo></msup><mo>+</mo><msub><mi>W</mi><mrow><mi>r</mi><mi>p</mi></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000047.GIF" wi="477" he="134" /></maths>(8.3)在连续语流中,各个视位的口形受到其周围视位的影响,最终的FAP参数可以由各个FAP参数按基本控制权值函数值加权得到:<maths num="0016"><math><![CDATA[<mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></munderover><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi></mrow></msub></mrow><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>I</mi></munderover><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000051.GIF" wi="446" he="269" /></maths>其中,i包含有声模型和左、右无声模型,I为本时段连续语流所涉及有声及无声模型总个数;J只包含连续语流中有声模型总个数;T<sub>ip</sub>为对应有声模型权值中心时刻的FAP值;(9)动态视位模型参数的确定87个基本动态视位对应的动态视位模型参数的获取方法是:首先,对87个动态视位所对应的V,CV,VC及CVCC进行发音录像;然后,取CVCC音节的最后一个辅音C的口形作为单辅音的口形,并经过手动或自动测量得到实际发音过程中的65个FAP参数曲线;再依次对每个视位的65个FAP参数曲线对应的动态视位模型参数进行估算,即每个动态视位对应的65个动态视位模型;如前面所述,将动态视位模型设计为分段函数,每段包含二个控制权值函数,并设计了控制参数,以减少对应权值函数对下一段FAP参数取值的影响,C和CV类控制参数设计如下:<img file="FDA0001080384390000052.GIF" wi="350" he="91" />表示左无声模型在第一段结束时刻控制权值函数值;<img file="FDA0001080384390000053.GIF" wi="406" he="78" />表示辅音模型在0时刻的控制权值函数值;<img file="FDA0001080384390000054.GIF" wi="508" he="101" />表示元音模型在CV类第二段起始时刻的控制权值函数值;<img file="FDA0001080384390000055.GIF" wi="509" he="87" />表示辅音模型在C类或CV类第二段结束时刻的控制权值函数值;<img file="FDA0001080384390000056.GIF" wi="446" he="94" />表示元音模型在CV类第三段结束时刻的控制权值函数值;<img file="FDA0001080384390000057.GIF" wi="457" he="87" />表示右无声模型在C类第二段起始时刻或CV类第三段起始时刻的控制权值函数值;V和VC控制参数如下:<img file="FDA0001080384390000058.GIF" wi="445" he="86" />表示左无声模型在第一段结束时刻控制权值函数值;<img file="FDA0001080384390000059.GIF" wi="406" he="79" />表示元音模型在0时刻的控制权值函数值;<img file="FDA00010803843900000510.GIF" wi="503" he="94" />表示辅音模型在VC类第二段起始时刻的控制权值函数值;<img file="FDA00010803843900000511.GIF" wi="509" he="87" />表示元音模型在V类或VC类第二段结束时刻的控制权值函数值;<img file="FDA00010803843900000512.GIF" wi="445" he="87" />表示辅音模型在VC类第三段结束时刻的控制权值函数值;<img file="FDA00010803843900000513.GIF" wi="365" he="87" />表示右无声模型在V类第二段起始时刻或VC类第三段起始时刻的控制权值函数值;如以上所述可以看出,动态视位模型分段函数中有两种类型的分段,分别如下:第一种为:<maths num="0017"><math><![CDATA[<mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></mrow></msub></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>l</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mi>p</mi></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000061.GIF" wi="541" he="159" /></maths>第二种为:<maths num="0018"><math><![CDATA[<mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></mrow></msub><mo>+</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mi>c</mi><mo>)</mo></mrow></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>r</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mi>c</mi><mo>)</mo></mrow></mrow></msub></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mi>c</mi><mo>)</mo></mrow></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000062.GIF" wi="830" he="159" /></maths>下面分别以<maths num="0019"><math><![CDATA[<mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>1</mn></mrow></msub></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000063.GIF" wi="429" he="157" /></maths>和<maths num="0020"><math><![CDATA[<mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><mo>.</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>1</mn></mrow></msub></mrow><mrow><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mn>1</mn></mrow></msub></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000064.GIF" wi="597" he="159" /></maths>为例,分析分段函数的性质;由<maths num="0021"><math><![CDATA[<mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow><mrow><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup><mo>+</mo><msub><mi>&alpha;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><msup><mi>e</mi><mrow><msub><mi>&theta;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000065.GIF" wi="1061" he="222" /></maths>可得<maths num="0022"><math><![CDATA[<mrow><mi>ln</mi><mrow><mo>(</mo><mfrac><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mo>{</mo><mi>ln</mi><mfrac><msub><mi>&alpha;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub></mfrac><mo>+</mo><mrow><mo>(</mo><msub><mi>&theta;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mo>+</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mo>)</mo></mrow><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><msub><mi>t</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>}</mo><mo>-</mo><mrow><mo>(</mo><msub><mi>&theta;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mo>+</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mo>)</mo></mrow><mi>t</mi></mrow>]]></math><img file="FDA0001080384390000066.GIF" wi="1541" he="175" /></maths>令θ<sub>lp</sub>+θ<sub>ipc(‑)</sub>=c<sub>1</sub><maths num="0023"><math><![CDATA[<mrow><mi>ln</mi><mfrac><msub><mi>&alpha;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub></mfrac><mo>+</mo><mrow><mo>(</mo><msub><mi>&theta;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mo>+</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mo>)</mo></mrow><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><msub><mi>t</mi><mrow><mi>l</mi><mi>p</mi></mrow></msub><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>=</mo><msub><mi>b</mi><mn>1</mn></msub></mrow>]]></math><img file="FDA0001080384390000067.GIF" wi="900" he="141" /></maths><maths num="0024"><math><![CDATA[<mrow><mi>l</mi><mi>n</mi><mrow><mo>(</mo><mfrac><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>y</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001080384390000068.GIF" wi="446" he="143" /></maths>则有y<sub>1</sub>(t)=b<sub>1</sub>‑c<sub>1</sub>t由<maths num="0025"><math><![CDATA[<mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msup><mi>e</mi><mrow><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup><mo>+</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>c</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>f</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow><mrow><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msup><mi>e</mi><mrow><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup><mo>+</mo><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>c</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>f</mi><mi>p</mi></mrow></msub><mo>-</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup></mrow></mfrac></mrow>]]></math><img file="FDA0001080384390000071.GIF" wi="1245" he="223" /></maths>可得:<maths num="0026"><math><![CDATA[<mrow><mi>ln</mi><mrow><mo>(</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><mo>-</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub></mrow><mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub></mrow></mfrac><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mi>ln</mi><mfrac><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub></mfrac><mo>+</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>c</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>f</mi><mi>p</mi></mrow></msub><mo>)</mo></mrow><mo>-</mo><mrow><mo>(</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mo>+</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mo>)</mo></mrow><mi>t</mi></mrow>]]></math><img file="FDA0001080384390000072.GIF" wi="1598" he="159" /></maths>令θ<sub>ipc(+)</sub>+θ<sub>ipv(‑)</sub>=c<sub>2</sub><maths num="0027"><math><![CDATA[<mrow><mi>ln</mi><mfrac><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub><msub><mi>&alpha;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub></mfrac><mo>+</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>i</mi><mi>p</mi></mrow></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>&theta;</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></mrow></msub><mrow><mo>(</mo><msub><mi>t</mi><mrow><mi>c</mi><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>t</mi><mrow><mi>i</mi><mi>f</mi><mi>p</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>b</mi><mn>2</mn></msub></mrow>]]></math><img file="FDA0001080384390000073.GIF" wi="846" he="151" /></maths><maths num="0028"><math><![CDATA[<mrow><mi>ln</mi><mrow><mo>(</mo><mfrac><mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>v</mi></mrow></msub><mo>-</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub></mrow><mrow><mi>F</mi><mi>A</mi><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>T</mi><mrow><mi>i</mi><mi>p</mi><mi>c</mi></mrow></msub></mrow></mfrac><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>y</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001080384390000074.GIF" wi="518" he="159" /></maths>则有y<sub>2</sub>(t)=b<sub>2</sub>‑c<sub>2</sub>t分段函数在对数空间为线性函数,参数θ<sub>lp</sub>与θ<sub>ipc(‑)</sub>或θ<sub>ipc(+)</sub>与θ<sub>ipv(‑)</sub>之和取负为直线斜率,其它参数与直线的截距有关;但是,FAP曲线的拟合精度仅由直线的斜率和截距来决定,即在保证直线的斜率和截距不变的情况下,参数的取值不影响曲线拟合精度;因此,参数估计可以分两步:首先,在对数空间采用线性回归算法求取直线斜率和截距以获得较高的曲线拟合精度;然后,再在参数取值范围内,对参数取值并使控制参数ε取值较小,以保证各段连接处曲线的光滑性。
地址 830046 新疆维吾尔自治区乌鲁木齐市胜利路14号新疆大学信息科学与工程学院