2.3kb/s谐波激励线性预测语音编码方法,申请号CN02156677.1-传众专利搜索

发明名称	2.3kb/s谐波激励线性预测语音编码方法
摘要	2.3kb/s谐波激励线性预测语音编码方法属于语音信号处理技术领域。本发明由语音采集系统将所需的语音信号输入计算机处理器中，完成对语音信号处理。该方法特征在于：使用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带，低带对应语音信号的浊音部分，而高带对应语音信号的清音部分，用统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分，在统一的谐波激励模型中引入了一个来自男性讲话者浊音区的固定相位谱，并使用谐波激励模型参数内插方法，减少传统LPC声码器中的噪声后获取合成语音，最后使用一个短时后滤波器增强合成语音的质量。本方法使得语音编码方法对清/浊判决不敏感，使得合成的语音质量自然平滑，无变调现象发生。
申请公布号	CN1186765C	申请公布日期	2005.01.26
申请号	CN02156677.1	申请日期	2002.12.19
申请人	北京工业大学	发明人	鲍长春
分类号	G10L19/00	主分类号	G10L19/00
代理机构	北京思海天达知识产权代理有限公司	代理人	张慧
主权项	1、2.3kb/s谐波激励线性预测语音编码方法，是由语音采集系统将所需进行的语音信号输入计算机，在计算机处理器中完成对语音信号的编码过程，该方法包括语音编码和译码两部分，编码方法中基音周期检测采用了一种基于波形相关法的语音信号基音周期检测方法，语音谱参数的量化采用了线谱频率参数一步插值预测矢量量化方法，本发明的特征在于：用基音检测方法和浊音度分析方法将LPC激励信号分裂为两个带，低带对应于语音信号的浊音部分，而高带对应于语音信号的清音部分，浊音激励信号和清音激励信号用统一的谐波模型表示，对于低于分带频率的谐波，其谐波相位用男性讲话者浊音区的固定相位表示，而对于高于分带频率的谐波，其谐波相位用均匀分布的随机数表示；为了获得平滑渐变的激励信号，谐波激励模型中的所有参数均进行线性内插，最后使用一个短时后滤波器增强合成语音的质量；本发明方法的编码部分主要包括预处理方法、线性预测分析方法、线性预测逆滤波方法、基音检测与浊音度判决方法、残差谐波幅度确定方法、线性预测系数到线谱频率参数的转换方法和参数量化与编码方法；编码器的工作程序如下：第一步，输入语音经预处理模块去除输入信号的直流成分；第二步，先对去除直流的语音信号加240点哈明窗，然后对加窗的语音进行自相关估计，最后获取线性预测系数；第三步，将第二步得到的线性预测系数利用常规方法转换成线谱频率参数；第四步，用一步插值预测矢量量化方法量化线谱频率参数；第五步，当前帧和前一帧量化的线谱频率参数线性内插到当前的4个子帧中，每子帧内插的线谱频率参数再变回到线性预测系数，通过逆滤波器求得当前帧的线性预测残差信号，另外，当前帧最后一个子帧内插的线性预测系数用于计算将来帧的残差信号，这个未来帧的残差信号将用于当前帧残差谐波幅度的提取；第六步，利用基于波形相关法的语音信号基音周期检测方法、在去除直流的输入信号上进行基音周期检测和浊音度估计；该方法的应用中，在按上述预处理、相关系数估计和后处理步骤求得三个窗内的最优延迟后，再用下面的阀值和逻辑从三个窗获得的最优延迟中得到当前帧的延迟估计；令(τ<sub>1</sub>，ρ<sub>1</sub>)，(τ<sub>2</sub>，ρ<sub>2</sub>)和(τ<sub>3</sub>，ρ<sub>3</sub>)分别为对应三个叠接窗的最优延迟和相关系数，则当前帧最终的基音周期估计<img file="C021566770003C1.GIF" wi="57" he="58" />按如下逻辑获得：令t<sub>1</sub>＝ρ<sub>2</sub>/ρ<sub>1</sub>，t<sub>2</sub>＝ρ<sub>2</sub>/ρ<sub>3</sub>，t<sub>3</sub>＝ρ<sub>1</sub>/ρ<sub>2</sub>，t<sub>4</sub>＝ρ<sub>3</sub>/ρ<sub>2</sub>如果t<sub>1</sub>和t<sub>2</sub>同时大于1.8或者t<sub>3</sub>和t<sub>4</sub>同时大于1.8则<maths num="001"><![CDATA[ <math><mrow><msub><mover><mi>τ</mi><mo>^</mo></mover><mi>opt</mi></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>τ</mi><mn>1</mn></msub><mo>+</mo><msub><mi>τ</mi><mn>3</mn></msub><mo>)</mo></mrow><mo>/</mo><mn>2</mn><mo>,</mo></mrow></math>]]></maths>ρ＝(ρ<sub>1</sub>+ρ<sub>3</sub>)/2否则<maths num="002"><![CDATA[ <math><mrow><msub><mover><mi>τ</mi><mo>^</mo></mover><mi>opt</mi></msub><mo>=</mo><msub><mi>τ</mi><mn>2</mn></msub><mo>,</mo></mrow></math>]]></maths>ρ＝ρ<sub>2</sub>这里<img file="C021566770003C4.GIF" wi="60" he="59" />的值为整数，用7比特量化；在本发明的谐波激励线性预测语音编码法中，无论是何种类型的语音帧都要给出确切的浊音度值p<sub>v</sub>，这个p<sub>v</sub>将语音信号分为两个带，p<sub>v</sub>决定了这两个带的分界频率，在分界频率以下的频谱看作是周期信号频谱，而在分界频率以上的频谱看作是类噪声频谱；这里p<sub>v</sub>由预处理后的语音信号能量E<sub>lpf</sub>和相关系数ρ共同确定；如果E<sub>lpf</sub>小于给定的阀值，则直接令p<sub>v</sub>等于零，根据常规的听觉测定分析，设此帧的基音频率为100Hz(80个样点)；如果E<sub>lpf</sub>大于给定的阀值，则p<sub>v</sub>由ρ确定；第七步，根据上述步骤得到的预测残差信号和基音周期，估计残差谐波；估计完谐波幅度后，对其进行归一化处理，以便于分别量化；第八步，将量化的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数进行二进制编码，并将比特流送入信道或存入媒质，供译码器用；本发明方法的译码部分主要包括参数解码方法、参数内插方法、残差信号重建方法、线谱频率参数到线性预测系数的转换方法、语音合成方法、后滤波和自动增益控制方法；参数内插模块完成基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的内插工作；译码器的工作程序如下：第一步，参数解码模块根据接收到的比特流，在译码器的5个码书中得到对应的基音周期、浊音度、残差谐波幅度、归一化增益和线谱频率参数的实数值；第二步，根据译码端恢复的谐波幅度和基音周期，用如下的谐波模型重建线性预测残差信号：<maths num="003"><![CDATA[ <math><mrow><mi>e</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>L</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mrow></munderover><msub><mi>A</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mi>cos</mi><mrow><mo>(</mo><mi>kφ</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>θ</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></math>]]></maths>其中<img file="C021566770005C2.GIF" wi="744" he="138" />这里L(n)，p<sub>v</sub>(n，k)和A<sub>k</sub>(n)分别为在样点n处的谐波个数、浊音度和第k个去归一化的谐波幅度；D(k)是一个固定相位谱，它来自于男性讲话者的某帧浊音语音信号，从而保证D(k)的维数大于等于给定的最大谐波数，对于低于分带频率的谐波，其谐波相位等于固定值，而对高于分带频率的谐波，其谐波相位是均匀分布的随机数；令样点n处的基音周期值为P(n)，则每个样点处的相位φ(n)可通过如下逐点迭代获得：<maths num="004"><![CDATA[ <math><mrow><mi>φ</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mi>φ</mi><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mfrac><mrow><mn>2</mn><mi>π</mi></mrow><mrow><mi>P</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>为了重建残差信号e(n)，需要知道每个样点处的谐波幅度及其基音周期长度，本发明使用线性内插方法来增样谐波幅度；第三步，将线谱频率参数在四个子帧线性内插，再将4个内插的线谱频率参数转换为线性预测系数，得到了4个子帧的合成滤波器系数；第四步，将重建的线性预测残差信号e(n)经过合成滤波器，得到合成语音；第五步，使用传统的短时后滤波器增强合成语音的质量；第六步，使用自动增益控制技术保证后滤波前后合成语音信号的平均能量不变。
地址	100022北京市朝阳区平乐园100号