发明名称 合成语音发音平滑化之装置与方法
摘要 一种合成语音发音平滑化之装置与方法,其原理包含:将第一与第二语音码转换成第一字音讯号与第二字音讯号,再取出第一字音与第二字音的发声时间长度,并按着取出其中较大者,并且分别侦测出其音节节距,然后依据第一转换函数F(x)或第二转换函数G(x)适用之条件,产生混合音节节距时间长度(M)。然后利用混合音节节距时间长度与取样频率产生混合音节音讯,并将混合音节音讯插入第一字音讯号的音讯与第二字音讯号的音讯之间,以依照顺序发出第一字音讯号的音讯、混合音节音讯与第二字音讯号的音讯。使得以合成语音发出第一字音与第二字音时,得以将其合成语音平滑化。
申请公布号 TW470927 申请公布日期 2002.01.01
申请号 TW089110182 申请日期 2000.05.25
申请人 网际智慧股份有限公司 发明人 李昭明;姜惠良
分类号 G10L13/08 主分类号 G10L13/08
代理机构 代理人 蔡坤财 台北巿松江路一四八号十二楼
主权项 1.一种合成语音发音平滑化装置,系用于将储存于语音库中的语音码读出,以将语音码转换成字音振幅讯号并发出字音的合成语音时,使所发出的合成语音每个字音间之发音平滑化,该合成语音发音平滑化装置至少包含;振幅临限装置,系用于依据每个字音的字音振幅讯号中,以其振幅不为定値之时间区段而得出每个字音的字音发声时间长度;字音节距侦测装置,系用于依据每个字音的字音振幅讯号中,以其振幅相邻的二极大値之间的时间区段,而得出每个字音内之复数个字音节距(pitch);最大发声时间长度侦测装置,系用于侦测该振福临限装置对每个字音所测得之每个字音发声时间长度中的最大者,以得到最大发声时间长度;混合音节节距产生装置,系用于以第一转换函数,依据最大发声时间长度、相邻二字音中前一字音的第一字音节距以及后一字音的第二字音节距、相邻二字音中前一字音的发音音调以及后一字音的发音音调,而产生混合音节节距时间长度,其中相邻二字音前一字音的发音音调以及后一字音的发音音调分别为第一声接第二声、第一声接第三声以及第二声接第三声时,系使用该第一转换函数F(x),当相邻二字音前一字音的发音音调以及后一字音的发音音调分别为第四声接第一声以及第四声接第三声时,系以第二转换函数G(x)产生该混合音节节距时间长度,其中上述之x表示时间,该第一转换函数F(x)在频域(frequency domain)中的所有切线斜率没有等于零者,该第二转换函数G(x)中的所有切线斜率在频域(frequency domain)中的所有切线斜率値为单调递减函数;音节节距至音讯样本产生装置,系用于依据混合音节节距时间长度而产生混合音节的音讯;以及顺序输出装置,系用于将混合音节的音讯插入相邻二字音前一字音以及后一字音的字音振幅讯号中,使得以合成语音发出相邻二字音时,前一字音以及后一字音之间的发音得以平滑化,并使得该前一字音发音尾端之频率与该后一字音发音起始处之频率相连接。2.如申请专利范围第1项之合成语音发音平滑化装置,其中上述之第一转换函数F(x)为d/[1+exp(4x/w)],并且其中上述之d代表该前一字音发音尾端之频率与该后一字音发音起始处之频率之差的绝对値,上述之x代表时间,上述之w代表该前一字音发音尾端之时间与该后一字音发音起始处之时间之差的绝对値。3.如申请专利范围第1项之合成语音发音平滑化装置,其中上述之第二转换函数G(x)为[1-exp(-x)],其中上述之x代表时间。4.如申请专利范围第1项之合成语音发音平滑化装置,其中上述之第一声的频率大约为340赫兹(Hz),该第二声的频率大约为270升至340赫兹,该第三声的频率大约为230降至170再升至230赫兹,该第四声的频率大约为360降至280赫兹。5.一种合成语音发音平滑化装置,系用于将储存于语音库中的语音码读出,以将语音码转换成字音振幅讯号并发出字音的合成语音时,使所发出的合成语音每个字音间之发音平滑化,该合成语音发音平滑化装置至少包含:振幅临限装置,系用于依据每个字音的字音振幅讯号中,以其振幅不为定値之时间区段而得出每个字音的字音发声时间长度;字音节距侦测装置,系用于依据每个字音的字音振幅讯号中,以其振幅相邻的二极大値之间的时间区段,而得出每个字音内之复数个字音节距(pitch);最大发声时间长度侦测装置,系用于侦测该振福临限装置对每个字音所测得之每个字音发声时间长度中的最大者,以得到最大发声时间长度;混合音节节距产生装置,系用于以第一转换函数,依据最大发声时间长度、相邻二字音中前一字音的第一字音节距以及后一字音的第二字音节距、相邻二字音中前一字音的发音音调以及后一字音的发音音调,而产生混合音节节距时间长度,其中相邻二字音前一字音的发音音调以及后一字音的发音音调分别为第一声接第二声、第一声接第三声以及第二声接第三声时,该第一转换函数F(x)为d/[1+exp(4x/w)],相邻二字音前一字音的发音音调以及后一字音的发音音调分别为第四声接第一声以及第四声接第三声时,系以第二转换函数G(x)产生该混合音节节距时间长度,该第二转换函数G(x)为[1-exp(-x)],其中上述之d代表该前一字音发音尾端之频率与该后一字音发音起始处之频率之差的绝对値,上述之x代表时间,上述之w代表该前一字音发音尾端之时间与该后一字音发音起始处之时间之差的绝对値;音节节距至音讯样本产生装置,系用于依据混合音节节距时间长度而产生混合音节的音讯;以及顺序输出装置,系用于将混合音节的音讯插入相邻二字音前一字音以及后一字音的字音振幅讯号中,使得以合成语音发出相邻二字音时,前一字音以及后一字音之间的发音得以平滑化,并使得该前一字音发音尾端之频率与该后一字音发音起始处之频率相连接。6.如申请专利范围第5项之合成语音发音平滑化装置,其中上述之第一声的频率大约为340赫兹(Hz),该第二声的频率大约为270升至340赫兹,该第三声的频率大约为230降至170再升至230赫兹,该第四声的频率大约为360降至280赫兹。7.一种合成语音发音平滑化方法,系用于将储存于语音库中的语音码读出,以将语音码转换成字音振幅讯号并发出字音的合成语音时,使所发出的合成语音每个字音间之发音平滑化,该合成语音发音平滑化方法至少包含下列步骤:依据每个字音的字音振幅讯号中,以其振幅不为定値之时间区段而得出每个字音的字音发声时间长度;依据每个字音的字音振幅讯号中,以其振幅相邻的二极大値之间的时间区段,而得出每个字音内之复数个字音节距(pitch);取出相邻字音中的字音之字音发声时间长度的最大者,以得到最大发声时间长度;以第一转换函数,依据最大发声时间长度、该相邻二字音中前一字音的第一字音节距以及后一字音的第二字音节距、相邻二字音中前一字音的发音音调以及后一字音的发音音调,而产生混合音节节距时间长度,其中该相邻二字音前一字音的发音音调以及后一字音的发音音调分别为第一声接第二声、第一声接第三声以及第二声接第三声时,系使用该第一转换函数F(x),当该相邻二字音前一字音的发音音调以及后一字音的发音音调分别为第四声接第一声以及第四声接第三声时,系以第二转换函数G(x)产生该混合音节节距时间长度,其中上述之x表示时间,该第一转换函数F(x)在频域(frequencydomain)中的所有切线斜率没有等于零者,该第二导换函数G(x)中的所有切线斜率在频域(frequency domain)中的所有切线斜率値为单调递减函数;依据该相邻二字音间之混合音节节距时间长度而产生混合音节的音讯;以及将该混合音节的音讯插入该相邻二字音前一字音以及后一字音的字音振幅讯号中,使得以合成语音发出该相邻二字音时,该将一字音以及该后一字音之间的发音得以平滑化,并使得该前一字音发音尾端之频率与该后一字音发音起始处之频率相连接。8.如申请专利范围第7项之合成语音发音平滑化方法,其中上述之第一转换函数F(x)为d/[1+exp(4x/w)],并且其中上述之d代表该前一字音发音尾端之频率与该后一字音发音起始处之频率之差的绝对値,上述之x代表时间,上述之w代表该前一字音发音尾端之时间与该后一字音发音起始处之时间之差的绝对値。9.如申请专利范围第7项之合成语音发音平滑化方法,其中上述之第二转换函数G(x)为[1-exp(-x)],其中上述之x代表时间。10.如申请专利范围第7项之合成语音发音平滑化方法,其中上述之第一声的频率大约为340赫兹(Hz),该第二声的频率大约为270升至340赫兹,该第三声的频率大约为230降至170再升至230赫兹,该第四声的频率大约为360降至280赫兹。11.一种合成语音发音平滑化方法,系用于将储存于语音库中的语音码读出,以将语音码转换成字音振幅讯号并发出字音的合成语音时,使所发出的合成语音每个字音间之发音平滑化,该合成语音发音平滑化方法至少包含下列步骤:依据每个字音的字音振幅讯号中,以其振幅不为定位之时间区段而得出每个字音的字音发声时间长度;依据每个字音的字音振幅讯号中,以其振幅相邻的二极大値之间的时间区段,而得出每个字音内之复数个字音节距(pitch);取出相邻字音中的字音之字音发声时间长度的最大者,以得到最大发声时间长度;依据最大发声时间长度、该相邻二字音中前一字音的第一字音节距以及后一字音的第二字音节距、该相邻二字音中的该前一字音的发音音调以及该后一字音的发音音调,而产生混合音节节距时间长度,其中该相邻二字音的该前一字音的发音音调以及该后一字音的发音音调分别为第一声接第二声、第一声接第三声以及第二声接第三声时,该第一转换函数F(x)为d/[1+exp(4x/w)],该相邻二字音的该前一字音的发音音调以及该后一字音的发音音调分别为第四声接第一声以及第四声接第三声时,系以第二转换函数G(x)产生该混合音节节距时间长度,该第二转换函数G(x)为[1-exp(-x)],其中上述之d代表该前一字音发音尾端之频率与该后一字音发音起始处之频率之差的绝对値,上述之x代表时间,上述之w代表该前一字音发音尾端之时间与该后一字音发音起始处之时间之差的绝对値;依据该相邻二字音间之混合音节节距时间长度而产生混合音节的音讯;以及将该混合音节的音讯插入该相邻二字音前一字音以及后一字音的字音振幅讯号中,使得以合成语音发出该相邻二字音时,该前一字音以及该后一字音之间的发音得以平滑化,并使得该前一字音发音尾端之频率与该后一字音发音起始处之频率相连接。12.如申请专利范围第11项之合成语音发音平滑化方法,其中上述之第一声的频率大约为340赫兹(Hz),该第二声的频率大约为270升至340赫兹,该第三声的频率大约为230降至170再升至230赫兹,该第四声的频率大约为360降至280赫兹。图式简单说明:第一图显示的是本发明的合成语音发音平滑化之装置的一较佳实施例的功能方块图;第二图显示的是本发明的合成语音发音平滑化之装置及方法中,所利用的各个参数之关系图;第三图显示的是本发明的合成语音发音平滑化之装置及方法中,用来产生混合音节节距时间长度的第一函数之转移方程式于频域(frequency domain)中的曲线,并且其连接的前一字音是第一声,其连接的后一字音是第二声;以及第四图显示的是本发明的合成语音发音平滑化之装置及方法中,用来产生混合音节节距时间长度的第二转换函数之转移方程式于频域(frequency domain)中的曲线。
地址 台北县汐止市新台五路一段一○○号九楼
您可能感兴趣的专利