发明名称 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
摘要 本发明公开了基于线谱频率及其阶间差分参数的频谱建模与语音增强方法,包括在频谱参数提取时将线谱频率阶间差分作为提取结果的一部分;在模型建模和训练时分别对线谱频率及其阶间差分参数进行独立建模和训练;在预测时分别预测线谱频率及其阶间差分参数,并利用阶间差分对线谱频率参数进行调整;最终利用调整后的线谱频率参数合成输出语音以达到通过增强和锐化合成语音的共振峰而提高合成语音音质的目的。
申请公布号 CN1815552B 申请公布日期 2010.05.12
申请号 CN200610038589.X 申请日期 2006.02.28
申请人 安徽中科大讯飞信息科技有限公司 发明人 凌震华;王玉平;王仁华
分类号 G10L13/08(2006.01)I;G10L13/02(2006.01)I;G10L13/00(2006.01)I;G10L21/02(2006.01)I 主分类号 G10L13/08(2006.01)I
代理机构 安徽合肥华信知识产权代理有限公司 34112 代理人 余成俊
主权项 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法,包括以下步骤:(1)、对语音信号分帧求取线性预测系数;(2)、线谱频率及其阶间差分参数的获得:将线性预测系数转换成对应阶数的线谱频率参数,同时,对相邻阶的线谱频率计算其差分参数;(3)、对于各阶线谱频率及其阶间差分参数分别独立进行声学模型的训练,采用的模型为隐马尔可夫模型,在模型训练过程中,通过结合语音单元的上下文属性利用决策树对各参数对应的模型进行较为细致的分类,保证得到的声学模型均可以实现依据上下文属性输入的参数预测;(4)、合成阶段的语音增强处理:a、对用户输入的文本进行分析,利用分析得到的各语音单元对应的上下文属性输入训练得到的声学模型,预测合成时使用的各帧线谱频率及阶间差分参数,由于线谱频率和阶间差分参数是分别通过二个独立的声学模型预测的,所以预测得到的阶间差分参数与预测得到的线谱频率的实际阶间差分参数相比并不一致;b、利用各帧预测得到的阶间差分参数依据下式对预测得到的线谱频率进行调整: <mrow> <msubsup> <mi>l</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <mfrac> <msubsup> <mi>c</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mn>2</mn> </msubsup> <mrow> <msubsup> <mi>c</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>[</mo> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>]</mo> </mrow>其中,li,i=1,2,...,N为预测得到的当前帧第i阶的线谱频率,N为线谱频率参数的阶数;ci,i=1,2,...,M为预测得到的当前帧第i+1阶和第i阶线谱频率之间的阶间差分参数,M为阶间差分参数的阶数,M<N;l′i,i=1,2,...,N为调整后当前帧的N阶线谱频率,对于各阶线谱频率,选择从低阶第2阶到高阶第M阶的调整顺序,或者选择从高阶第M阶到低阶第2阶的调整顺序,或者同时通过调整遍数来控制这种频谱峰值增强作用的强弱;c、将调整后的线谱频率转换为线性预测系数,同时结合韵律预测模块生成的基音频率参数,送入线性预测滤波器,合成语音并输出。
地址 230088 安徽省合肥市黄山路616号