发明名称 一种电子喉语音重建方法及其系统
摘要 本发明提供了一种电子喉语音重建方法及其系统,首先从采集的语音中提取模型参数作为参数库,接着,采集发声者的面部图像后传输给图像分析与处理模块,得到发声起止时刻与发声元音类别,接着,通过嗓音源合成模块合成嗓音源波形,最后,通过电子喉振动输出模块将上述嗓音源波形输出,其中,嗓音源合成模块首先设置声门嗓音源模型参数,从而合成声门嗓音源波形,再用波导模型模拟声音在声道中传播并根据发声元音类别选择声道的形状参数,从而合成电子喉嗓音源波形。通过本发明方法及其系统,其重建的语音更接近发声者本身的声音。
申请公布号 CN101916566A 申请公布日期 2010.12.15
申请号 CN201010222878.1 申请日期 2010.07.09
申请人 西安交通大学 发明人 万明;吴亮;王素品;牛志峰;万聪颖
分类号 G10L15/24(2006.01)I;G10L13/02(2006.01)I;G06K9/00(2006.01)I;G06T1/40(2006.01)I;A61F2/70(2006.01)I 主分类号 G10L15/24(2006.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 汪人和
主权项 1.一种电子喉语音重建方法,首先从采集的语音中提取模型参数作为参数库,接着采集发声者的面部图像,将该图像传输给图像分析与处理模块,图像分析与处理模块分析处理完之后,得到发声起止时刻与发声元音类别,再接着,以发声起止时刻和发声元音类别控制嗓音源合成模块并合成嗓音源波形,最后,通过电子喉振动输出模块将上述嗓音源波形输出,电子喉振动输出模块包括前置电路和电子喉振动器,其特征在于:所述嗓音源合成模块的合成步骤如下:1)合成声门嗓音源波形:根据使用者发声的个性特征在参数库内选择声门嗓音源模型参数,其中,发声起止时刻控制嗓音源合成的开始和结束,所述声门嗓音源合成采用LF模型,具体数学表示如下:<maths num="0001"><![CDATA[<math><mfenced open='{' close=''><mtable><mtr><mtd><msub><msup><mi>u</mi><mo>&prime;</mo></msup><mi>g</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>E</mi><mn>0</mn></msub><msup><mi>e</mi><mi>&alpha;t</mi></msup><mi>sin</mi><mrow><mo>(</mo><msub><mi>&omega;</mi><mi>g</mi></msub><mi>t</mi><mo>)</mo></mrow></mtd><mtd><mrow><mo>(</mo><mn>0</mn><mo>&le;</mo><mi>t</mi><mo>&le;</mo><msub><mi>t</mi><mi>e</mi></msub><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><msup><mi>u</mi><mo>&prime;</mo></msup><mi>g</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><mrow><mo>(</mo><mfrac><msub><mi>E</mi><mi>e</mi></msub><mrow><mi>&epsiv;</mi><msub><mi>t</mi><mi>a</mi></msub></mrow></mfrac><mo>)</mo></mrow><mo>[</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>&epsiv;</mi><mrow><mo>(</mo><mi>t</mi><mo>-</mo><msub><mi>t</mi><mi>e</mi></msub><mo>)</mo></mrow></mrow></msup><mo>-</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>&epsiv;</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>c</mi></msub><mo>-</mo><msub><mi>t</mi><mi>e</mi></msub><mo>)</mo></mrow></mrow></msup><mo>]</mo></mtd><mtd><mrow><mo>(</mo><msub><mi>t</mi><mi>e</mi></msub><mo>&le;</mo><mi>t</mi><mo>&le;</mo><msub><mi>t</mi><mi>c</mi></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></math>]]></maths>上式中,Ee为幅度参数,t<sub>p</sub>、t<sub>e</sub>、t<sub>a</sub>、t<sub>c</sub>均为时间参数,分别代表气流最大峰值时刻、最大负峰值时刻、指数回复段时间常数和基频周期,其余参数可由以上五个参数按照以下公式联合求得:<maths num="0002"><![CDATA[<math><mfenced open='{' close=''><mtable><mtr><mtd><mi>&epsiv;</mi><msub><mi>t</mi><mi>a</mi></msub><mo>=</mo><mn>1</mn><mo>-</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>&epsiv;</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>c</mi></msub><mo>-</mo><msub><mi>t</mi><mi>s</mi></msub><mo>)</mo></mrow></mrow></msup></mtd></mtr><mtr><mtd><msub><mi>&omega;</mi><mi>g</mi></msub><mo>=</mo><mfrac><mi>&pi;</mi><msub><mi>t</mi><mi>p</mi></msub></mfrac></mtd></mtr><mtr><mtd><msub><mi>U</mi><mi>e</mi></msub><mo>=</mo><msub><mi>E</mi><mn>0</mn></msub><mo>[</mo><msup><mi>e</mi><mrow><mi>&omega;</mi><msub><mi>t</mi><mi>e</mi></msub></mrow></msup><mrow><mo>(</mo><mi>&alpha;</mi><mi>sin</mi><msub><mi>&omega;</mi><mi>g</mi></msub><msub><mi>t</mi><mi>e</mi></msub><mo>-</mo><msub><mi>&omega;</mi><mi>g</mi></msub><mi>cos</mi><msub><mi>&omega;</mi><mi>g</mi></msub><msub><mi>t</mi><mi>e</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>&omega;</mi><mi>g</mi></msub><mo>]</mo><mo>/</mo><mrow><mo>(</mo><msup><mi>&alpha;</mi><mn>2</mn></msup><mo>+</mo><msubsup><mi>&omega;</mi><mi>g</mi><mn>2</mn></msubsup><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>E</mi><mi>e</mi></msub><mo>=</mo><mo>-</mo><msub><mi>E</mi><mn>0</mn></msub><msup><mi>e</mi><mrow><mi>&alpha;</mi><msub><mi>t</mi><mi>e</mi></msub></mrow></msup><mi>sin</mi><msub><mi>&omega;</mi><mi>g</mi></msub><msub><mi>t</mi><mi>e</mi></msub></mtd></mtr><mtr><mtd><msub><mi>U</mi><mi>e</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>E</mi><mi>e</mi></msub><msub><mi>t</mi><mi>&alpha;</mi></msub></mrow><mn>2</mn></mfrac><msub><mi>K</mi><mi>&alpha;</mi></msub></mtd></mtr><mtr><mtd><msub><mi>K</mi><mi>&alpha;</mi></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>2.0</mn></mtd><mtd><msub><mi>R</mi><mi>&alpha;</mi></msub><mo>&lt;</mo><mn>0.1</mn></mtd></mtr><mtr><mtd><mn>2</mn><mo>-</mo><mn>2.34</mn><msubsup><mi>R</mi><mi>&alpha;</mi><mn>2</mn></msubsup><mo>+</mo><mn>1.34</mn><msubsup><mi>R</mi><mi>&alpha;</mi><mn>4</mn></msubsup></mtd><mtd><mn>0.1</mn><mo>&le;</mo><msub><mi>R</mi><mi>&alpha;</mi></msub><mo>&le;</mo><mn>0.5</mn></mtd></mtr><mtr><mtd><mn>2.16</mn><mo>-</mo><mn>1.32</mn><msub><mi>R</mi><mi>&alpha;</mi></msub><mo>+</mo><mn>0.64</mn><msup><mrow><mo>(</mo><msub><mi>R</mi><mi>&alpha;</mi></msub><mo>-</mo><mn>0.5</mn><mo>)</mo></mrow><mn>2</mn></msup></mtd><mtd><msub><mi>R</mi><mi>&alpha;</mi></msub><mo>></mo><mn>0.5</mn></mtd></mtr></mtable></mfenced></mtd></mtr><mtr><mtd><msub><mi>R</mi><mi>&alpha;</mi></msub><mo>=</mo><mfrac><msub><mi>t</mi><mi>&alpha;</mi></msub><mrow><msub><mi>t</mi><mi>c</mi></msub><mo>-</mo><msub><mi>t</mi><mi>e</mi></msub></mrow></mfrac><mo>;</mo></mtd></mtr></mtable></mfenced></math>]]></maths>2)根据发声元音类别选择声道的形状参数,利用波导模型模拟声音在声道中传播,按照以下公式计算出嗓音源波形:<maths num="0003"><![CDATA[<math><mrow><mfenced open='{' close=''><mtable><mtr><mtd><msubsup><mi>u</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow><mo>+</mo></msubsup><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>r</mi><mi>i</mi></msub><mo>)</mo></mrow><msubsup><mi>u</mi><mi>i</mi><mo>+</mo></msubsup><mo>-</mo><msub><mi>r</mi><mi>i</mi></msub><msubsup><mi>u</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow><mo>-</mo></msubsup><mo>=</mo><msubsup><mi>u</mi><mi>i</mi><mo>+</mo></msubsup><mo>-</mo><msub><mi>r</mi><mi>i</mi></msub><mrow><mo>(</mo><msubsup><mi>u</mi><mi>i</mi><mo>+</mo></msubsup><mo>+</mo><msubsup><mi>u</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow><mo>-</mo></msubsup><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msubsup><mi>u</mi><mi>i</mi><mo>-</mo></msubsup><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>+</mo><msub><mi>r</mi><mi>i</mi></msub><mo>)</mo></mrow><msubsup><mi>u</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow><mo>-</mo></msubsup><mo>+</mo><msub><mi>r</mi><mi>i</mi></msub><msubsup><mi>u</mi><mi>i</mi><mo>+</mo></msubsup><mo>=</mo><msubsup><mi>u</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow><mo>-</mo></msubsup><mo>+</mo><msub><mi>r</mi><mi>i</mi></msub><mrow><mo>(</mo><msubsup><mi>u</mi><mi>i</mi><mo>+</mo></msubsup><mo>+</mo><msubsup><mi>u</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow><mo>-</mo></msubsup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>,</mo><msub><mi>r</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>A</mi><mi>i</mi></msub><mo>-</mo><msub><mi>A</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub></mrow><mrow><msub><mi>A</mi><mi>i</mi></msub><mo>+</mo><msub><mi>A</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub></mrow></mfrac></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mfenced open='{' close=''><mtable><mtr><mtd><mi>glottis</mi><mo>:</mo><msubsup><mi>u</mi><mn>1</mn><mo>+</mo></msubsup><mo>=</mo><mfrac><mrow><mn>1</mn><mo>-</mo><msub><mi>r</mi><mi>g</mi></msub></mrow><mn>2</mn></mfrac><msub><mi>u</mi><mi>g</mi></msub><mo>-</mo><msub><mi>r</mi><mi>g</mi></msub><msubsup><mi>u</mi><mn>1</mn><mo>-</mo></msubsup><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msub><mi>u</mi><mi>g</mi></msub><mo>-</mo><msub><mi>r</mi><mi>g</mi></msub><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msub><mi>u</mi><mi>g</mi></msub><mo>+</mo><msubsup><mi>u</mi><mn>1</mn><mo>-</mo></msubsup><mo>)</mo></mrow></mtd><mtd><msub><mi>r</mi><mi>g</mi></msub><mo>&ap;</mo><mo>-</mo><mn>1</mn></mtd></mtr><mtr><mtd><mi>lips</mi><mo>:</mo><msub><mi>u</mi><mi>out</mi></msub><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>r</mi><mi>N</mi></msub><mo>)</mo></mrow><msubsup><mi>u</mi><mi>N</mi><mo>+</mo></msubsup><mo>=</mo><msubsup><mi>u</mi><mi>N</mi><mo>+</mo></msubsup><mo>-</mo><msubsup><mi>u</mi><mi>N</mi><mo>-</mo></msubsup></mtd><mtd><msub><mi>r</mi><mi>N</mi></msub><mo>&ap;</mo><mo>-</mo><mn>1</mn></mtd></mtr></mtable></mfenced></math>]]></maths>声道由多个均匀截面积的声管级联表示,上式中,A<sub>i</sub>和A<sub>i+1</sub>为第i个和第i+1个声管的面积函数,<img file="FDA0000023189480000024.GIF" wi="45" he="52" />和<img file="FDA0000023189480000025.GIF" wi="44" he="45" />分别为第i个声管中的正向声压和反向声压,r<sub>i</sub>是第i个和第i+1个声管相邻界面的反射系数。
地址 710049 陕西省西安市咸宁路2号