发明名称 半自动人声配音方法
摘要 一种半自动人声配音方法,在人声配音或音色转换领域,就是要将一种原始音色转变成许多不同的音色。在戏剧作品(如电影)里的人声配音工作,通常需要许多的配音员,因此本发明希望借由电脑来作音色转换之处理,而达成只需要一位配音员便能够配出许多不同音色的功能,以节省人力,实现个人配音工作室的理想。本发明研究的人声配音系统称之为半自动的,因为喜怒哀乐的表达仍然要由声音信号的原输入者来控制。本发明的成果是,提出了一种半自动人声配音的方法,以独立控制基频、声道长度、声源讯号、及声道内部比例之方式,来达到改变人声音色的目标。此外,本发明也已将此方法实作成一个可线上即时操作之系统,并且经由实际听测验证,的确可得到相当丰富的音色转换。
申请公布号 TW454173 申请公布日期 2001.09.11
申请号 TW088122862 申请日期 1999.12.24
申请人 古鸿炎 发明人 古鸿炎;洪茂松
分类号 G10L9/00 主分类号 G10L9/00
代理机构 代理人 江舟峰 台北巿长安东路二段八十一号六楼
主权项 1.一种半自动人声配音方法,系为一种音色转换之方法,以改变基频、声道长度、声源记号及声道内部比例之处理步骤来达到将一种音色转换出的目标;该方法主要处理流程依序包括:一基周侦测,将输入的语音信号以时框(frame)为单位进行切割,然后即时求取时框中各基周顶点(pitchpeak)的位置;一音调与声道长调整,此部份是修改本案申请人先前提出的TIPW(time Proportioned Interpolation of PitchWaveform)音节信号合成方法,以便能够在即时的要求下,将语音信号依据所设定的音高、声道长参数来作调整;一声源讯号调整,此部份是透过LPC(linear predictioncoding)分析来求取声源讯号,并调整该声源讯号;一声道内部比例调整,以LPC分析所建构的声道模型为基础,改变声道前后部分的长短比例,以模拟不同人的声道内部比例之差异。2.如申请专利范围第1项所述之半自动人声配音方法,其中基周顶点的位置选取步骤为:步骤(1):依能量及零点交越率来设定周期性旗标,然后判断周期性旗标是否皆为零,若皆为零(即无周期性信号),直接傅回零个周期;步骤(2):合并三个时框中各取出的15个最大振幅値,依时间次序加以排序,然后存入阵列Y[1]~Y[45];步骤(3):计算振幅门槛値并存于变数Clip,我们设定Clip的程序是,本次缓冲区的三个时框各取出一个振幅极大値,设为max1,max2,max3,接着判断前一个缓冲区是否具有周期性讯号,如果没有,就令Clip = (max1 +max2 + max3)*0.2,如果有周期性讯号,就令Clip=min(max1,max2,max3)*0.6;步骤(4):由于Y[1]~Y[45]并不是每一个点都在峰値的位置,而是形成一群群集中在峰値及峰値及峰値附近的点上,因此依序取出Y[1]~Y[45]中振幅大于Clip且为锋値者,将它们存入阵列X[1]~X[K];步骤(5):上、下周期长度这门槛値的设定:若前一个缓冲区具有周期性讯号则令下周期长度门槛=前一个缓冲区的周期平均値乘0.75,即(ave_pitch)*0.75上周期长度门槛=前一个缓冲区的周期平均値乘1.75,即(ave_pitch)*1.75否则令下周期长度门槛=35*sampling_rate/11, 025上周期长度门槛=200*sampling_rate/11, 025也就是当第一个周期信号开始出现时,设定其基频必须在55Hz至315Hz的范围内,而当目前所分析的缓冲区不是连续周期信号的起始点时,则随着到目前为止的平均周期长度作调整;步骤(6):由阵列X[1]~X[K]中找出本次缓冲区中所有的周期顶点位置:作法为以缓冲区起点为参考,点将X[1]~X[K]中距离在上、下周期长度门槛之间的X[i]找出,从中取出一个具有最大振幅的点当作是周期的边界点;再以此边界点为参考点,往前找出X[1]~X[K]中下一批介于上、下周期长度门槛之间的X[i],从中挑出振幅最大之X[i]当作是下一个周期边界点,如此继续找下去。图式简单说明:第一图为本发明半自动人声配音方法之处理流程架构图;第二图为半自动人声配音方法之基周位置求取流程图;第三图(A)为基周求取之缓冲区设定示意图;第三图(B)为基周求取之缓冲区设定示意图;第四图为波形顶点之阵列元素X[1]~X[K]分布示意图;第五图为有错误的基周选取结果示意图;第六图为基周修正范围示意图;第七图为基周修正后的结果示意图;第八图为T1增加时的声源波形图;第九图为求LPC分析剩余信号之周期设定方式示意图;第十图为调整声源讯号之流程图;第十一图为格状滤波器与声道的对应图;第十二图为声道内部比例调整之/a/音截面积比较图;第十三图(a)为声道内部比例调整(原始/a/音)之频谱分析图;第十三图(b)为声道内部比例调整(u=1.4)之频谱分析图;第十三图(c)为声道内部比例调整(u=0.6)之频谱分析图;
地址 基隆市信二路二十五号