发明名称 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
摘要 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法,实现步骤为:提取语音频谱包络特征,提取语音高层频谱特征,动态时间规整,GMM模型训练,联合频谱包络特征声学子空间划分,Gaussian-Bernoulli RBM模型训练或Gaussian-Gaussian RBM模型训练,频谱转换和合成转换语音。本发明提高了频谱建模精度,改善转换语音的音质和自然度。
申请公布号 CN103413548B 申请公布日期 2016.02.03
申请号 CN201310360234.2 申请日期 2013.08.16
申请人 中国科学技术大学 发明人 刘利娟;陈凌辉;凌震华;戴礼荣
分类号 G10L13/033(2013.01)I;G10L15/06(2013.01)I 主分类号 G10L13/033(2013.01)I
代理机构 北京科迪生专利代理有限责任公司 11251 代理人 成金玉
主权项 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法,其特征在于实现步骤如下:步骤一:提取语音频谱包络特征(1)利用STRAIGHT分析合成器分别对源和目标说话人的训练语料按帧分析,得到语音基频序列值以及静态频谱包络特征<img file="FDA0000773059650000011.GIF" wi="194" he="91" />和<img file="FDA0000773059650000012.GIF" wi="228" he="91" />,其中,<img file="FDA0000773059650000013.GIF" wi="101" he="92" />和<img file="FDA0000773059650000014.GIF" wi="98" he="84" />分别为源和目标说话人第t帧静态频谱包络特征矢量,维度均为513,T<sub>1</sub>和T<sub>2</sub>分别为源和目标特征矢量帧数;(2)基于静态频谱包络特征<img file="FDA0000773059650000015.GIF" wi="186" he="91" />和<img file="FDA0000773059650000016.GIF" wi="232" he="93" />,根据公式(2)(3)得到一阶动态频谱包络特征<img file="FDA0000773059650000017.GIF" wi="218" he="94" />和<img file="FDA0000773059650000018.GIF" wi="262" he="92" />,根据公式(4)(5)得到二阶动态频谱包络特征<img file="FDA0000773059650000019.GIF" wi="244" he="86" />和<img file="FDA00007730596500000110.GIF" wi="294" he="86" />;<img file="FDA00007730596500000111.GIF" wi="1395" he="85" />Δc<sub>1</sub>=Δc<sub>2</sub>,Δc<sub>T</sub>=Δc<sub>T‑1</sub>    (3) <img file="FDA00007730596500000112.GIF" wi="1397" he="85" />Δ<sup>2</sup>c<sub>1</sub>=Δ<sup>2</sup>c<sub>2</sub>,Δ<sup>2</sup>c<sub>T</sub>=Δ<sup>2</sup>c<sub>T‑1</sub>   (5) 其中,Δ·表示一阶差分,Δ<sup>2</sup>·表示二阶差分,T为特征序列的帧数,c<sub>t</sub>表示第t帧特征矢量;(3)将<img file="FDA00007730596500000113.GIF" wi="188" he="86" />和<img file="FDA00007730596500000114.GIF" wi="522" he="86" />拼接在一起,最终得到源说话人的 频谱包络特征<img file="FDA0000773059650000021.GIF" wi="964" he="103" />,其中,第t帧频谱包络特征<img file="FDA0000773059650000022.GIF" wi="834" he="101" />表示矢量转置,将<img file="FDA0000773059650000023.GIF" wi="195" he="93" />和<img file="FDA0000773059650000024.GIF" wi="263" he="91" />、<img file="FDA0000773059650000025.GIF" wi="248" he="86" />拼接在一起,最终得到目标说话人的频谱包络特征<img file="FDA0000773059650000026.GIF" wi="944" he="99" />,其中,第t帧频谱包络特征<img file="FDA0000773059650000027.GIF" wi="734" he="98" />;步骤二:提取语音高层频谱特征(1)在得到的静态频谱包络特征<img file="FDA0000773059650000028.GIF" wi="188" he="91" />和<img file="FDA0000773059650000029.GIF" wi="189" he="92" />基础上,进一步提取每帧语音对应的高层频谱特征,这里使用40阶梅尔倒谱特征,得到源与目标说话人的静态高层频谱特征<img file="FDA00007730596500000210.GIF" wi="214" he="86" />和<img file="FDA00007730596500000211.GIF" wi="266" he="89" />;(2)基于<img file="FDA00007730596500000212.GIF" wi="216" he="86" />和<img file="FDA00007730596500000213.GIF" wi="263" he="86" />,根据公式(2)(3)得到一阶动态高层频谱特征<img file="FDA00007730596500000214.GIF" wi="250" he="86" />和<img file="FDA00007730596500000215.GIF" wi="296" he="86" />,根据公式(4)(5)得到二阶动态高层频谱特征<img file="FDA00007730596500000216.GIF" wi="276" he="86" />和<img file="FDA00007730596500000217.GIF" wi="313" he="86" />;(3)将<img file="FDA00007730596500000218.GIF" wi="220" he="86" />和<img file="FDA00007730596500000219.GIF" wi="576" he="86" />拼接在一起,最终得到源说话人的高层频谱特征<img file="FDA00007730596500000220.GIF" wi="1110" he="100" />,其中,第t帧高层频谱特征<img file="FDA00007730596500000221.GIF" wi="868" he="101" />,将<img file="FDA00007730596500000222.GIF" wi="210" he="86" />和<img file="FDA00007730596500000223.GIF" wi="563" he="86" />拼接在一起,最终得到目标说话人的高层频谱特征<img file="FDA00007730596500000224.GIF" wi="1087" he="100" />,其中,第t帧高层频谱特征<img file="FDA00007730596500000225.GIF" wi="827" he="102" />;步骤三:动态时间规整(1)根据DTW动态时间规整(Dynamic Time Align,DTW)算法计算X<sup>MCEP</sup>和Y<sup>MCEP</sup>之间的对齐函数,并根据该对齐函数将X<sup>MCEP</sup>和Y<sup>MCEP</sup>对齐,由对齐后的X<sup>MCEP</sup>和Y<sup>MCEP</sup>拼接得到联合高层频谱特征<img file="FDA0000773059650000031.GIF" wi="1096" he="94" />,其中,第t帧联合高层频谱特征<img file="FDA0000773059650000032.GIF" wi="629" he="91" />,T表示对齐后的帧长;(2)根据(1)中得到的对齐函数将X<sup>SPE</sup>和Y<sup>SPE</sup>对齐,由对齐后的X<sup>SPE</sup>和Y<sup>SPE</sup>拼接得到联合频谱包络特征<img file="FDA0000773059650000033.GIF" wi="926" he="93" />,其中,第t帧联合频谱包络特征<img file="FDA0000773059650000034.GIF" wi="527" he="93" />;步骤四:GMM模型训练利用上一步得到的联合高层频谱特征Z<sup>MCEP</sup>,根据最大似然准则,利用EM算法对GMM模型进行训练,得到模型参数<img file="FDA0000773059650000035.GIF" wi="578" he="86" />,其中,M为GMM模型中混合高斯分布的个数,ω<sub>m</sub>,μ<sub>m</sub>,Σ<sub>m</sub>分别表示第m个混合高斯分布的权重、均值向量和协方差矩阵;步骤五:联合频谱包络特征声学子空间划分在GMM模型训练完成后,利用得到的GMM模型参数λ<sub>GMM</sub>,根据最大后验概率准则,对联合高层频谱特征Z<sup>MCEP</sup>进行声学子空间划分,得到由Z<sup>MCEP</sup>中每帧特征所属的声学子空间索引组成的索引序列m=[m<sub>1</sub>,m<sub>2</sub>,…,m<sub>t</sub>,…m<sub>T</sub>];<img file="FDA0000773059650000036.GIF" wi="1396" he="109" />根据索引序列m对联合频谱包络特征Z<sup>SPE</sup>进行声学子空间划分,将具有相 同子空间索引的联合频谱包络特征帧分类在一起,作为该声学子空间下Gaussian–Bernoulli受限玻尔兹曼机RBM模型的训练特征参数集;步骤六:Gaussian‑Bernoulli受限玻尔兹曼机RBM模型训练由于频谱包络特征参数值为连续实数,为了对其分布能够进行更准确的描述假设每个显层节点服从连续的概率分布,这里假设为高斯分布,同时假设隐含节点服从{0,1}二值分布;根据步骤五中的划分结果,对每个声学子空间独立训练受限玻尔兹曼机RBM模型,采用的Gaussian‑Bernoulli形式的RBM模型对应的能量函数为:<img file="FDA0000773059650000041.GIF" wi="1545" he="171" />其中,变量v=[v<sub>1</sub>,v<sub>2</sub>,…,v<sub>V</sub>]<sup>T</sup>对应RBM模型显层节点,V为显层节点的个数,变量h=[h<sub>1</sub>,h<sub>2</sub>,…,h<sub>H</sub>]<sup>Τ</sup>对应受限玻尔兹曼机RBM模型隐含节点,H为隐含节点的个数;θ={W,a,b}为模型参数,W={w<sub>ij</sub>}<sub>V</sub><sub>×</sub><sub>H</sub>,w<sub>ij</sub>表示显层节点v<sub>i</sub>与隐含节点h<sub>j</sub>的连接权值,a=[a<sub>1</sub>,a<sub>2</sub>,…,a<sub>V</sub>]<sup>Τ</sup>和b=[b<sub>1</sub>,b<sub>2</sub>,…,b<sub>H</sub>]<sup>Τ</sup>为偏置参数;<img file="FDA0000773059650000045.GIF" wi="62" he="80" />是显层节点v<sub>i</sub>的方差,在模型训练中固定为一个定值不进行更新,为了表示方便,这里令其为1;显层节点v和隐含节点h的联合概率分布定义为:<img file="FDA0000773059650000042.GIF" wi="1388" he="164" />其中,<img file="FDA0000773059650000043.GIF" wi="148" he="76" />为配分项<img file="FDA0000773059650000044.GIF" wi="1355" he="135" />根据公式(7)(8),得到显层节点的联合概率分布;<img file="FDA0000773059650000051.GIF" wi="1718" he="698" />利用步骤五中得到的各声学子空间的训练数据,根据最大似然准则,采用Contrastive Divergence(CD)算法对模型参数<img file="FDA0000773059650000052.GIF" wi="335" he="85" />进行估计,其中,{W<sub>m</sub>,b<sub>m</sub>,a<sub>m</sub>}为第m个Gaussian‑Bernoulli RBM的模型参数;步骤七:频谱转换(1)在转换阶段,提取待转换语音的静态频谱包络特征,并根据(2)(3)、(4)(5)得到其一阶和二阶动态频谱包络特征,将静态和一阶、二阶动态频谱包络特征拼接在一起得到待转换频谱包络特征,第t帧待转换频谱包络特征用<img file="FDA0000773059650000053.GIF" wi="124" he="92" />表示,在静态频谱包络特征基础上提取静态高层频谱特征,并根据(2)(3)、(4)(5)得到一阶和二阶动态高层频谱特征,将静态和一阶、二阶动态高层频谱特征拼接在一起得到待转换语音的高层频谱特征,第t帧高层频谱特征用<img file="FDA0000773059650000054.GIF" wi="151" he="89" />表示;根据最大后验概率准则计算待转换语音第t帧频谱特征对应的声学子空间索引m;<img file="FDA0000773059650000055.GIF" wi="1314" he="104" />(2)对待转换频谱包络特征<img file="FDA0000773059650000056.GIF" wi="160" he="85" />,根据最大条件概率输出准则进行转换, 得到的转换频谱包络特征为:<img file="FDA0000773059650000061.GIF" wi="1501" he="166" />上式可进一步简化为:<img file="FDA0000773059650000062.GIF" wi="1258" he="117" />由于(13)式得不到闭合解,采用梯度下降搜索算法来获得转换频谱包络特征参数,梯度下降算法的更新公式为:<img file="FDA0000773059650000063.GIF" wi="1490" he="193" />其中,i为迭代次数,α为步长,根据公式(10),<img file="FDA0000773059650000064.GIF" wi="402" he="91" />关于<img file="FDA0000773059650000065.GIF" wi="110" he="85" />的偏导数;<img file="FDA0000773059650000066.GIF" wi="1773" he="179" />其中,a<sub>m</sub>、b<sub>m</sub>=[b<sub>m,1</sub>,…,b<sub>m,j</sub>,…,b<sub>m,H</sub>]<sup>Τ</sup>、W<sub>m</sub>=[w<sub>m,1</sub>,…,w<sub>m,j</sub>,…,w<sub>m,H</sub>]<sub>V</sub><sub>×</sub><sub>H</sub>为第m个Gaussian‑Bernoulli受限玻尔兹曼机RBM模型参数,w<sub>m,j</sub>为矩阵W<sub>m</sub>的第j列;<img file="FDA0000773059650000067.GIF" wi="257" he="99" />为a<sub>m</sub>、w<sub>m,j</sub>中与目标特征相关项;采用RBM模型的模式作为梯度下降搜索算法的初始值;由于对数域下的<img file="FDA0000773059650000068.GIF" wi="330" he="93" />中含有函数项f(x)=log(1+exp(x));当|x|>4时,f<sup>*</sup>(x)实现对f(x)的精确逼近;<img file="FDA0000773059650000069.GIF" wi="1262" he="183" />利用这种近似,对公式(13)进行求解得到转换频谱包络特征为:<img file="FDA0000773059650000071.GIF" wi="1285" he="141" />步骤八:合成转换语音最后,将转换得到的基频序列以及步骤七中得到转换频谱包络特征序列送入STRAIGHT合成器,生成转换语音。
地址 230026 安徽省合肥市包河区金寨路96号