基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法,申请号CN201310211046.3-传众专利搜索

发明名称	基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法
摘要	本发明属于语音信号处理领域，公开了一种基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法,该方法充分考虑了模型参数的数据压缩问题,在语音分析阶段提取出平滑功率谱之后,利用Mel-KSVD的方法对提取的平滑功率谱参数进行相关稀疏系数的表示,同时，在稀疏表示时通过字典自适应学的策略不断更新字典，最优化稀疏系数。仿真结果表明，该模型与传统的稀疏系数较少的模型相比，其合成语音质量总体相当或者更好，在男声语音方面甚至更优于传统KSVD稀疏表示的模型。此外，该方法比美尔倒谱系数压缩模型相比，语音合成质量更好。
申请公布号	CN103345920B	申请公布日期	2015.07.15
申请号	CN201310211046.3	申请日期	2013.05.29
申请人	河海大学常州校区	发明人	汤一彬;沈媛;朱昌平;周浩;高远;单鸣雷;姚澄
分类号	G10L13/02(2013.01)I;G10L21/047(2013.01)I	主分类号	G10L13/02(2013.01)I
代理机构	南京纵横知识产权代理有限公司 32224	代理人	董建林
主权项	基于Mel‑KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法，其特征在于，利用Mel‑KSVD的方法对经过STRAIGHT分析模型提取的平滑功率谱参数进行稀疏表示，包含以下步骤：(1)输入待合成语音信号，将语音信号通过STRAIGHT分析模型提取平滑谱：首先采用时频补偿法提取功率谱，接着再对功率谱进行低频带补偿和过平滑补偿，最后对功率谱无音帧进行处理，以得到平滑功率谱，平滑功率谱的参数构成一数据矩阵，设为Y＝[y<sub>1</sub>,...,y<sub>M</sub>]；(2)提取出的平滑功率谱参数通过美尔滤波器后进行字典的训练，再利用Mel‑KSVD算法对式：<img file="FDA0000701022700000011.GIF" wi="605" he="146" />约束条件为<img file="FDA0000701022700000012.GIF" wi="360" he="94" />进行参数D和X的优化求解，其中M为美尔滤波器组的系数矩阵，Y＝[y<sub>1</sub>,...,y<sub>M</sub>]表示功率谱参数矩阵，D＝[d<sub>1</sub>,...,d<sub>K</sub>]为目标训练字典，d<sub>i</sub>表示字典的一个原子，x<sub>k</sub>为y<sub>k</sub>在D上投影的稀疏矢量，X＝[x<sub>1</sub>,...,x<sub>M</sub>]，ε为重构误差门限，\|\|.\|\|<sub>F</sub>为Frobenius范数，\|\|.\|\|<sub>0</sub>为0范数；(3)利用优化出的目标训练字典<img file="FDA0000701022700000013.GIF" wi="56" he="74" />和通过美尔滤波器和Mel‑KSVD算法对STRAIGHT分析模型得到的待合成语音的平滑谱参数进行稀疏表示得到的稀疏矢量x<sub>k</sub>，并将得到的稀疏系数矩阵X＝[x<sub>1</sub>,...,x<sub>M</sub>]通过STRAIGHT合成模型进行语音的合成；通过对功率谱参数矩阵进行估计来进行语音的合成，估计矩阵为<img file="FDA0000701022700000014.GIF" wi="336" he="90" />求解公式为<img file="FDA0000701022700000015.GIF" wi="218" he="86" />k＝1,2,...,M；步骤(2)所述的算法对式<img file="FDA0000701022700000021.GIF" wi="605" he="146" />约束条件为<img file="FDA0000701022700000022.GIF" wi="359" he="88" />进行D和X的优化求解，按如下步骤进行：(2a)在字典训练阶段,目标字典D与重构误差<img file="FDA0000701022700000023.GIF" wi="268" he="88" />相关；在目标函数中的MD被看成一个复杂的字典D<sub>eq</sub>,字典D<sub>eq</sub>中的原子d<sub>k</sub>的优化问题归为如下公式：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mo><</mo><msub><mi>d</mi><mrow><mi>eq</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>,</mo><msub><mi>δ</mi><mi>k</mi></msub><mo>></mo><mo>=</mo><munder><mrow><mi>arg</mi><mi>min</mi></mrow><mrow><msub><mi>d</mi><mi>k</mi></msub><mo>,</mo><msub><mi>x</mi><mi>k</mi></msub></mrow></munder><msubsup><mrow><mo>\|</mo><mo>\|</mo><msub><mi>E</mi><mrow><mi>eq</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>-</mo><msub><mi>d</mi><mrow><mi>eq</mi><mo>,</mo><mi>k</mi></mrow></msub><msub><mi>δ</mi><mi>k</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mi>F</mi><mn>2</mn></msubsup><mo>,</mo></mrow>]]></math><img file="FDA0000701022700000024.GIF" wi="669" he="118" /></maths>其中<img file="FDA0000701022700000025.GIF" wi="432" he="101" />d<sub>eq,k</sub>是D<sub>eq</sub>的第k列，δ<sub>k</sub>是X的第k行；(2b)采用奇异值分解算法对上式处理，得E<sub>eq,k</sub>＝UΣV<sup>T</sup>,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mover><mi>d</mi><mo>~</mo></mover><mrow><mi>eq</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>=</mo><mi>U</mi><mrow><mo>(</mo><mo>:</mo><mo>,</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000701022700000026.GIF" wi="267" he="93" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mover><mi>δ</mi><mo>~</mo></mover><mi>k</mi></msub><mo>=</mo><mi>Σ</mi><mrow><mo>(</mo><mn>1,1</mn><mo>)</mo></mrow><mo>*</mo><mi>V</mi><mrow><mo>(</mo><mo>:</mo><mo>,</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000701022700000027.GIF" wi="370" he="93" /></maths>其中，U和V是酉矩阵,Σ是对角阵，其第k个对角元素为E<sub>k</sub>的奇异值,U(:,1)和V(:,1)分别表示U和V的第一列,Σ(1,1)是Σ最大的奇异值；得到最佳的字典<img file="FDA0000701022700000028.GIF" wi="80" he="91" />原子<img file="FDA0000701022700000029.GIF" wi="52" he="76" />优化为<img file="FDA00007010227000000210.GIF" wi="271" he="98" />当对于所有k＝1,2,...,M，进行稀疏系数和字典更新的迭代，直到<img file="FDA00007010227000000211.GIF" wi="338" he="90" />时，停止对D的优化求解，此时得到的字典为最佳字典<img file="FDA00007010227000000212.GIF" wi="81" he="85" />输出稀疏系数矩阵X＝[x<sub>1</sub>,...,x<sub>M</sub>]和对应字典<img file="FDA00007010227000000213.GIF" wi="82" he="81" />进入所述的步骤(3)，否则重复步骤(2a)与(2b)。
地址	213022 江苏省常州市晋陵北路200号