发明名称 基于卷积非负矩阵分解的语音转换方法
摘要 本发明公开了一种基于卷积非负矩阵分解的语音转换方法,通过训练数据对变换模型进行训练,首先训练语音数据的时间对准及参数分解,使用卷积非负矩阵分解方法对STRAIGHT谱进行分析,分析源语音与目标语音的基音频率;基于训练模型对新输入语音进行转换:对于待转换的源语音数据<img file="2011102674255100004dest_path_image002.GIF" wi="24" he="25" />采用STRAIGHT模型进行参数分解,基于卷积非负矩阵分解实现声道频谱参数的转换,基于训练阶段得到的基音频率的均值和方差,实现基音频率的转换,合成转换后的语音,即通过转换得到的STRAIGHT谱<img file="2011102674255100004dest_path_image004.GIF" wi="26" he="26" />、基音频率<img file="2011102674255100004dest_path_image006.GIF" wi="22" he="26" />及原始非周期分量<img file="2011102674255100004dest_path_image008.GIF" wi="34" he="26" />合成转换后的语音。本发明提升了语音转换的训练效果,改善了变换语音的语音质量。
申请公布号 CN102306492B 申请公布日期 2012.09.12
申请号 CN201110267425.5 申请日期 2011.09.09
申请人 中国人民解放军理工大学 发明人 张雄伟;孙健;曹铁勇;孙新建;黄建军;杨吉斌;邹霞;贾冲
分类号 G10L15/06(2006.01)I;G10L19/02(2006.01)I;G10L13/02(2006.01)I 主分类号 G10L15/06(2006.01)I
代理机构 南京理工大学专利中心 32203 代理人 唐代盛
主权项 1.一种基于卷积非负矩阵分解的语音转换方法,其特征在于步骤如下:首先,通过训练数据对变换模型进行训练:第一步:训练语音数据的时间对准及参数分解,对于训练所用的平行语音数据,即源说话人和目标说话人的相同内容的语音对,其中源说话人语音可表示为A,目标说话人语音可表示为B,首先通过STRAIGHT模型提取两者的基音周期包络p<sub>A</sub>和p<sub>B</sub>,之后通过基音周期包络及原始语音信号计算用于实现基音同步叠接相加处理的基音标注点pm<sub>A</sub>和pm<sub>B</sub>;依照音素划分信息,以语音A、B的对应音素为单位进行基音标注点匹配,之后再以音素为基本单元,基于匹配基音标注点采用基音同步叠接相加方式实现语音A与B的时间对准,得到时间对准后的语音A'和B',使用STRAIGHT模型对A'和B'进行分析,得到三组参数:(1)表征声道特性的STRAIGHT谱S<sub>A'</sub>、S<sub>B'</sub>;(2)基音频率f<sub>A'</sub>、f<sub>B'</sub>;(3)非周期分量ap<sub>A'</sub>、ap<sub>B'</sub>;第二步:使用卷积非负矩阵分解方法对STRAIGHT谱进行分析,即首先对A'的STRAIGHT谱S<sub>A'</sub>采用卷积非负矩阵分解方法分析,得到其时频基W<sub>A'</sub>(t)及编码矩阵H<sub>A'</sub>,之后再通过卷积非负矩阵分解方式对B'的STRAIGHT谱S<sub>B'</sub>进行分析,此时固定其编码矩阵为H<sub>A'</sub>,则可得到其时频基W<sub>B'</sub>(t);第三步:分析源语音与目标语音的基音频率,即通过对A'和B'的基音频率信息f<sub>A'</sub>和f<sub>B'</sub>进行分析,得到其两者的均值和方差:μ<sub>A'</sub>、<img file="FDA0000165716191.GIF" wi="80" he="80" />和μ<sub>B'</sub>、<img file="FDA0000165716192.GIF" wi="75" he="80" />;其次,基于训练模型对新输入语音进行转换:步骤一:对于待转换的源语音数据A<sub>c</sub>采用STRAIGHT模型进行参数分解,得到其STRAIGHT谱<img file="FDA0000165716193.GIF" wi="80" he="80" />、基音频率<img file="FDA0000165716194.GIF" wi="71" he="80" />及非周期分量<img file="FDA0000165716195.GIF" wi="104" he="80" />三组参数;步骤二:基于卷积非负矩阵分解实现声道频谱参数的转换,即对<img file="FDA0000165716196.GIF" wi="80" he="80" />采用卷积非负矩阵分解进行分析,此时固定其时频基为W<sub>A'</sub>,得到相应的编码矩阵<img file="FDA0000165716197.GIF" wi="95" he="80" />,进而通过如下公式得到转换后的STRAIGHT谱:<maths num="0001"><![CDATA[<math><mrow><msub><mi>S</mi><msub><mi>B</mi><mi>c</mi></msub></msub><mo>=</mo><msub><mi>W</mi><msup><mi>B</mi><mo>&prime;</mo></msup></msub><mo>&CircleTimes;</mo><msub><mi>H</mi><msub><mi>A</mi><mi>c</mi></msub></msub></mrow></math>]]></maths>其中<img file="FDA0000165716199.GIF" wi="80" he="80" />表示转换后的STRAIGHT谱,“<img file="FDA00001657161910.GIF" wi="54" he="59" />”为卷积运算;步骤三:基于训练阶段得到的基音频率的均值和方差,实现基音频率的转换:<maths num="0002"><![CDATA[<math><mrow><msub><mi>f</mi><msub><mi>B</mi><mi>c</mi></msub></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>f</mi><msub><mi>A</mi><mi>c</mi></msub></msub><mo>-</mo><msub><mi>&mu;</mi><msup><mi>A</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow><mfrac><msub><mi>&sigma;</mi><msup><mi>B</mi><mo>&prime;</mo></msup></msub><msub><mi>&sigma;</mi><msup><mi>A</mi><mo>&prime;</mo></msup></msub></mfrac><mo>+</mo><msub><mi>&mu;</mi><msup><mi>B</mi><mo>&prime;</mo></msup></msub></mrow></math>]]></maths>其中<img file="FDA00001657161912.GIF" wi="66" he="80" />表示转换后的基音频率;步骤四:合成转换后的语音,即通过转换得到的STRAIGHT谱<img file="FDA00001657161913.GIF" wi="80" he="80" />、基音频率<img file="FDA00001657161914.GIF" wi="66" he="80" />及原始非周期分量<img file="FDA00001657161915.GIF" wi="104" he="80" />合成转换后的语音。
地址 210007 江苏省南京市后标营路88号