主权项 |
1.一种速度可变的话音信号再生方法,该方法使用:适于接收数字话音信号并处理它们的信号处理器;适于存储通过上述信号处理器处理过的数字话音信号的存储器;和适用于控制信号处理器和存储器的微计算机,该方法包括步骤:第一步:使用平均幅度差函数从数字话音信号中检测音调,在上述第一步中进行检测话音信号的音调是使用下式实现的:<maths num="001"><![CDATA[ <math><mrow><msub><mi>Γ</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>m</mi><mo>=</mo><mn>0</mn></mrow><mo>∞</mo></munderover><mo>|</mo><mi>x</mi><mrow><mo>(</mo><mi>n</mi><mo>+</mo><mi>m</mi><mo>)</mo></mrow><mi>ω</mi><mn>1</mn><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>-</mo><mi>x</mi><mrow><mo>(</mo><mi>n</mi><mo>+</mo><mi>m</mi><mo>-</mo><mi>k</mi><mo>)</mo></mrow><mi>ω</mi><mn>2</mn><mrow><mo>(</mo><mi>m</mi><mo>-</mo><mi>k</mi><mo>)</mo></mrow><mo>|</mo></mrow></math>]]></maths><img file="C9610937800022.GIF" wi="437" he="108" />式中,N:窗口函数的一段; m:取样位置; k:相应于被检测的话音信号音调的时间常数;第二步:根据第一步骤的结果从该话音信号中分离浊音和清音,其中上述第二步以这样方式进行:当在第一步话音信号被检测为具有参考音调时,它们被认为是浊音,而被检测为不具有参考音调时,话音信号被识别为清音;第三步:暂时存储在第二步分离的清音;第四步:复制或删除在第二步分离的浊音的一部分,从而调制该话音信号的长度;和第五步:合成在第四步调制的浊音与在第三步暂时存储于存储器中的清音,其中上述第五步进行的合成调制的浊音与清音是使用下式实现的:<maths num="002"><![CDATA[ <math><mrow><mi>x</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>Σ</mi><mi>q</mi></munder><msub><mi>α</mi><mi>q</mi></msub><msub><mi>x</mi><mi>q</mi></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><msub><mi>h</mi><mi>q</mi></msub><mrow><mo>(</mo><msub><mi>t</mi><mi>q</mi></msub><mo>-</mo><mi>n</mi><mo>)</mo></mrow></mrow><mrow><munder><mi>Σ</mi><mi>q</mi></munder><msubsup><mi>h</mi><mi>q</mi><mn>2</mn></msubsup><mrow><mo>(</mo><msub><mi>t</mi><mi>q</mi></msub><mo>-</mo><mi>n</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>式中,x<sub>q</sub>::用于调节合成话音总量的变量; x(n):调制的话音特性x(n)=x(n-δ<sub>q</sub>); t<sub>q</sub>(n):每个已调制话音源的位置;和 δ<sub>q</sub>:用于确定播放速度的变量。 |