发明名称 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
摘要 抗噪声语音识别用语音增强-特征加权-对数谱相加方法属于语音识别技术领域,其特征在于:它是一种融合多空间抗噪声语音识别技术,即MMSE(最小均方差增强)-FW(特征加权)-LA(对数谱相加)的方法,它根据短时段语音各维特征提取空间的局部信噪比,给出特征的置信度估计,即权重,并对识别算法进行修改,把权重信息代入识别过程。尤其是前端语音增强技术、特征加权和对数谱相加模型补偿算法分别针对噪声在信号、特征和模型空间造成的失配进行处理,从而整体地提高了语音识别系统的抗噪声性能。在SNR(信噪比)为-5dB的高斯白噪声和汽车噪声这种强背景噪声环境下,识别率都达到了80%,而且前端增强和特征权重估计相互融合,选用了计算量较低的MMSE法,模型补偿也不需要对噪声模型进行离线估计。
申请公布号 CN1397929A 申请公布日期 2003.02.19
申请号 CN02124144.9 申请日期 2002.07.12
申请人 清华大学 发明人 曹志刚;许涛
分类号 G10L15/00;G10L15/20 主分类号 G10L15/00
代理机构 代理人
主权项 1.抗噪声语音识别用语音增强-特征加权-对数谱相加方法,含有计算机上运行的语音增强-对数谱相加方法,其特征在于,它依次含有以下步骤:(1).初始化Mel滤波器组在各线性频点k上的抽头系数H<sub>m</sub>(k),以及对数谱特征与MFCC(Mel频段倒谱系数)特征的转换矩阵Tr和Tr<sup>-1</sup>:其中k=1,2,...,N<sub>fft</sub>2,N<sub>fft</sub>所是FFT的频点数:m=1,2,..,M,M是Mel滤波器的个数。(2).输入含噪语音和纯净语音经训练得到的模型参数:μ<sup>c</sup>:纯净语音训练得到的模型状态在MFCC倒谱域下的静态特征均值;δμ<sup>c</sup>:纯净语音训练得到的模型状态在MFCC倒谱域下的动态特征均值;(3).分帧、加窗:若采样后的原始语音为y(n),汉明(hamming)窗在第n个采样点上的系数:<maths num="001"><![CDATA[ <math><mrow><mi>h</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mn>0.54</mn><mo>-</mo><mn>0.46</mn><mi>cos</mi><mrow><mo>(</mo><mfrac><mrow><mn>2</mn><mi>&pi;n</mi></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow><mo>,</mo><mi>n</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><mi>N</mi></mrow></math>]]></maths>N等于帧长,则分帧后的原始语音信号为:<maths num="002"><![CDATA[ <math><mrow><mi>y</mi><mrow><mo>(</mo><mi>n</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>y</mi><mrow><mo>(</mo><mfrac><mrow><mi>N</mi><mo>&times;</mo><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>+</mo><mi>n</mi><mo>)</mo></mrow><mo>,</mo><mi>n</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><mi>N</mi></mrow></math>]]></maths>t表示帧号,加上汉明窗后的原始语音信号为:y<sub>w</sub>(n,t)=y(n,t)×h(n),n=1,…,N(4).快速傅立叶变换FFT:由于语音短时频谱对感知语音起决定性的作用,利用FFT逐帧将语音变换到频谱域:<maths num="003"><![CDATA[ <math><mrow><mover><mi>Y</mi><mo>.</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>Y</mi><msup><mrow><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mi>e</mi></mrow><mrow><mo>&lt;</mo><mover><mi>Y</mi><mo>.</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow></msup><mo>=</mo><mi>FFT</mi><mo>{</mo><msub><mi>y</mi><mi>w</mi></msub><mrow><mo>(</mo><mi>n</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>}</mo><mo>,</mo><mi>k</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>N</mi><mi>fft</mi></msub></mrow></math>]]></maths>N<sub>fft</sub>是FFT变换的点数。(5).噪声帧检测和噪声谱幅度估计:(5.1).设定前10帧起始段含噪语音为噪声帧,输入当前第t帧含噪语音的短时谱幅度:(5.2).若当前帧为起始段噪声帧,则前t帧噪声功率谱幅度的估计值为:<maths num="004"><![CDATA[ <math><mrow><msub><mover><mi>D</mi><mo>~</mo></mover><mi>P</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>[</mo><munderover><mi>&Sigma;</mi><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>s</mi><mo>)</mo></mrow><mo>/</mo><mi>t</mi><mo>]</mo></mrow><mn>2</mn></msup></mrow></math>]]></maths>并在当前帧为第10帧时输出起始段噪声谱幅度的估计值:<maths num="005"><![CDATA[ <math><mrow><mi>N</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mn>10</mn></munderover><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>s</mi><mo>)</mo></mrow><mo>/</mo><mn>10</mn></mrow></math>]]></maths>计算用于区分噪声帧和含噪语音帧的判决门限x:<maths num="006"><![CDATA[ <math><mrow><mi>x</mi><mo>=</mo><munder><mi>max</mi><mrow><mi>t</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mn>10</mn></mrow></munder><mo>{</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><msub><mi>N</mi><mi>fft</mi></msub><mo>/</mo><mn>2</mn><mo>+</mo><mn>1</mn></mrow></munderover><mi>Pow</mi><mo>[</mo><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>/</mo><mi>N</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>,</mo><mn>5</mn><mo>]</mo><mo>}</mo></mrow></math>]]></maths>    (5.3).若当前帧不是起始段噪声帧,则当前帧t的判决值:<maths num="007"><![CDATA[ <math><mrow><mi>&rho;</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><msub><mi>N</mi><mi>fft</mi></msub><mo>/</mo><mn>2</mn><mo>+</mo><mn>1</mn></mrow></munderover><mi>Pow</mi><mo>[</mo><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>/</mo><mi>N</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>,</mo><mn>5</mn><mo>]</mo></mrow></math>]]></maths>        (5.3.1)若ρ<x,则判决为含噪语音中的噪声帧,其噪声功率谱幅度估计值为:<maths num="008"><![CDATA[ <math><mrow><msub><mover><mi>D</mi><mo>~</mo></mover><mi>p</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mn>0.98</mn><mo>&times;</mo><msub><mover><mi>D</mi><mo>~</mo></mover><mi>p</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mn>0.02</mn><mo>&times;</mo><msub><mi>Y</mi><mi>p</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow></math>]]></maths>    并输出;        (5.3.2).若ρ≥x,则判决为非噪声帧,即含有噪声的语音帧,其噪声功率谱幅    度为:<maths num="009"><![CDATA[ <math><mrow><msub><mover><mi>D</mi><mo>~</mo></mover><mi>p</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msub><mover><mi>D</mi><mo>~</mo></mover><mi>p</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>    并输出;(6).用取决于先验信噪比ζ和后验信噪比γ的谱幅度增益系数G(k,t)计算纯净语音短时谱幅度的估计值,以及相应的第t帧第m个对数谱特征的权重w<sub>m</sub>(t):    (6.1).输入当前第t帧含噪语音的短时谱幅度;(6.2).计算当前帧t第k个频点的后验信噪比<maths num="010"><![CDATA[ <math><mrow><mi>&gamma;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>Y</mi><mi>D</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>/</mo><msub><mover><mi>D</mi><mo>~</mo></mover><mi>D</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow></math>]]></maths>,Y<sub>p</sub>(k,t)为含噪语音的功率谱幅度,<img file="A0212414400036.GIF" wi="131" he="55" />为估计的噪声功率谱幅度。        (6.2.1).如果当前帧t=1,则初始化当前帧第k个频点的先验信噪比为    ζ(k,t)=0.1;        (6.2.2).如果当前帧t>1,则利用上一帧的先验和当前帧的后验信噪比,通过滑    动平均估计得到当前帧第k个频点的先验信噪比:            ζ(k,t)=0.98×ζ(k,t-1)+0.02×[γ(k,t)-1]    (6.3).当前帧t第k个频点的谱幅度增益系数:<maths num="011"><![CDATA[ <math><mrow><mi>G</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msqrt><mfrac><mrow><mi>&pi;&zeta;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow><mrow><mi>&gamma;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mi>&zeta;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac></msqrt><mi>&Psi;</mi><mrow><mo>(</mo><mo>-</mo><mn>0.5</mn><mo>;</mo><mn>1</mn><mo>;</mo><mo>-</mo><mfrac><mrow><mi>&gamma;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mi>&zeta;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>+</mo><mi>&zeta;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>利用级数求和,计算得到:<maths num="012"><![CDATA[ <math><mrow><mi>&Psi;</mi><mrow><mo>(</mo><msub><mi>a</mi><mn>1</mn></msub><mo>,</mo><msub><mi>a</mi><mn>2</mn></msub><mo>,</mo><msub><mi>a</mi><mn>3</mn></msub><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>+</mo><mfrac><msub><mi>a</mi><mn>1</mn></msub><msub><mi>a</mi><mn>2</mn></msub></mfrac><mfrac><msub><mi>a</mi><mn>3</mn></msub><mn>1</mn></mfrac><mo>+</mo><mfrac><mrow><msub><mi>a</mi><mn>1</mn></msub><mrow><mo>(</mo><msub><mi>a</mi><mn>1</mn></msub><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><msub><mi>a</mi><mn>2</mn></msub><mrow><mo>(</mo><msub><mi>a</mi><mn>2</mn></msub><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><mfrac><msup><msub><mi>a</mi><mn>3</mn></msub><mn>2</mn></msup><mrow><mn>2</mn><mo>!</mo></mrow></mfrac><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo></mrow></math>]]></maths>其中a<sub>1</sub>=-0.5,a<sub>2</sub>=1,<maths num="013"><![CDATA[ <math><mrow><msub><mi>a</mi><mn>3</mn></msub><mo>=</mo><mo>-</mo><mfrac><mrow><mi>&gamma;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mi>&zeta;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>+</mo><mi>&zeta;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>    (6.4).相应的纯净语音短时谱幅度的估计值为:<maths num="014"><![CDATA[ <math><mrow><mover><mi>X</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>G</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow></math>]]></maths>    (6.5).重新计算当前帧第k个频点的先验信噪比:<maths num="015"><![CDATA[ <math><mrow><mi>&zeta;</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>|</mo><mover><mi>X</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>2</mn></msup><mo>/</mo><msub><mover><mi>D</mi><mo>~</mo></mover><mi>p</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow></math>]]></maths>(6.6).计算完当前帧t第k个频点(1≤k≤N<sub>fft</sub>/2+1)的G(k,t)、<img file="A0212414400042.GIF" wi="128" he="55" />和ζ(k,t)值。    (6.7).计算当前帧t第m个对数谱特征的权重:<maths num="016"><![CDATA[ <math><mrow><msub><mi>w</mi><mi>m</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><msub><mi>N</mi><mi>fft</mi></msub><mo>/</mo><mn>2</mn></mrow></munderover><mi>G</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><msub><mi>H</mi><mi>m</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>/</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><msub><mi>N</mi><mi>fft</mi></msub><mo>/</mo><mn>2</mn></mrow></munderover><msub><mi>H</mi><mi>m</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow></math>]]></maths>    (6.8).计算当前帧共M个对数谱特征的的权重,M是对数谱特征的维数。(6.9).计算完t=1,2,...,T各帧中的<img file="A0212414400044.GIF" wi="127" he="56" />和w<sub>m</sub>(t);(6.10).输出所有相应的纯净语音短时谱幅度估计值<img file="A0212414400045.GIF" wi="128" he="56" />和对数谱特征的权重w<sub>m</sub>(t);(7).MFCC特征提取(7.1).输入纯净语音短时谱幅度估计值<img file="A0212414400046.GIF" wi="142" he="57" />(7.2).计算功率谱:<maths num="017"><![CDATA[ <math><mrow><msub><mover><mi>X</mi><mo>^</mo></mover><mi>p</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>|</mo><mover><mi>X</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>2</mn></msup></mrow></math>]]></maths>,k=1,...,N<sub>fft</sub>;    (7.3).Mel滤波:<maths num="018"><![CDATA[ <math><mrow><mi>MBank</mi><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><msub><mi>N</mi><mi>fft</mi></msub><mo>/</mo><mn>2</mn></mrow></munderover><msub><mi>H</mi><mi>m</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>&times;</mo><msub><mover><mi>X</mi><mo>^</mo></mover><mi>p</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><mi>m</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>M</mi></mrow></math>]]></maths>    (7.4).对数谱特征:FBank(m,t)=log(MBank(m,t)),m=1,..,M    (7.5).DCT倒谱表示:<maths num="019"><![CDATA[ <math><mrow><mover><mi>c</mi><mo>~</mo></mover><mrow><mo>(</mo><mi>r</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>&alpha;</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><mi>FBank</mi><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mi>cos</mi><mrow><mo>(</mo><mfrac><mrow><mi>&pi;</mi><mrow><mo>(</mo><mn>2</mn><mi>m</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mrow><mo>(</mo><mi>r</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mn>2</mn><mi>M</mi></mrow></mfrac><mo>)</mo></mrow><mo>,</mo><mi>r</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><mi>M</mi></mrow></math>]]></maths>其中<maths num="020"><![CDATA[ <math><mrow><mi>&alpha;</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msqrt><mfrac><mn>1</mn><mi>M</mi></mfrac></msqrt><mo>,</mo><mi>&alpha;</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mfrac><mn>2</mn><mi>M</mi></mfrac></msqrt><mo>,</mo><mi>r</mi><mo>=</mo><mn>2</mn><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><mi>M</mi></mrow></math>]]></maths>,并取前R维特征矢量    (7.6).倒谱加权:<maths num="021"><![CDATA[ <math><mrow><mi>c</mi><mrow><mo>(</mo><mi>r</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>lifter</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>&times;</mo><mover><mi>c</mi><mo>~</mo></mover><mrow><mo>(</mo><mi>r</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><mi>r</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><mi>R</mi></mrow></math>]]></maths>其中<maths num="022"><![CDATA[ <math><mrow><mi>Lifter</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>+</mo><mfrac><mi>L</mi><mn>2</mn></mfrac><mi>sin</mi><mrow><mo>(</mo><mfrac><mrow><mi>&pi;</mi><mrow><mo>(</mo><mi>r</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mi>L</mi></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>,r=1,…,R,L为加权滤波器宽度;    (7.7).计算动态系数:<maths num="023"><![CDATA[ <math><mrow><mi>&Delta;c</mi><mrow><mo>(</mo><mi>r</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>&Delta;t</mi><mo>=</mo><mo>-</mo><mn>2</mn></mrow><mn>2</mn></munderover><mi>&Delta;tc</mi><mrow><mo>(</mo><mi>r</mi><mo>,</mo><mi>t</mi><mo>+</mo><mi>&Delta;t</mi><mo>)</mo></mrow><mo>/</mo><mn>10</mn></mrow></math>]]></maths>,Δt表示帧间距;    (7.8).输出c(r,t)和Δc(r,t);(8).判断待识别语句是否输入完毕t=T(9).若判断为待识别语句已经输入完毕,则计算噪声帧,即剩余噪声的静态MFCC特征平均值,剩余噪声的定义如下:<maths num="024"><![CDATA[ <math><mrow><mover><mi>d</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mover><mi>x</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>-</mo><mi>x</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mrow></math>]]></maths>其中x(n)表示纯净语音在第n个样点上的值,<img file="A0212414400052.GIF" wi="77" he="45" />表示x(n)增强后的估计值。由于剩余噪声存在于各个语音帧,而语音仅存在于非噪声帧,所以对于噪声帧来说,<maths num="025"><![CDATA[ <math><mrow><mover><mi>D</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mover><mi>X</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>即剩余噪声的短时谱幅度在各噪声帧中等于增强后语音的短时谱幅度,我们可以利用下式计算剩余噪声的静态MFCC特征均值:<img file="A0212414400054.GIF" wi="430" he="195" />其中噪声帧包括起始段10帧和后面判决的噪声帧,r=1,2,..,R。(10).Log-Add对数谱相加模型补偿:    (10.1).输入剩余噪声的MFCC特征均值并转换到对数谱域<maths num="026"><![CDATA[ <math><mrow><msubsup><mi>&mu;</mi><mi>n</mi><mi>l</mi></msubsup><mo>=</mo><msup><mi>Tr</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><msubsup><mi>&mu;</mi><mi>n</mi><mi>c</mi></msubsup><mo>;</mo></mrow></math>]]></maths>    (10.2).输入纯净语音训练模型的状态均值,并转换到对数谱域μ<sup>l</sup>=Tr<sup>-1</sup>μ<sup>c</sup>,Δμ<sup>l</sup>=Tr<sup>-1</sup>Δμ<sup>c</sup>;    (10.3).Log-Add模型补偿:<maths num="027"><![CDATA[ <math><mrow><msubsup><mover><mi>&mu;</mi><mo>^</mo></mover><mi>m</mi><mi>l</mi></msubsup><mo>=</mo><msubsup><mi>&mu;</mi><mi>m</mi><mi>l</mi></msubsup><mo>+</mo><mi>log</mi><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mi>exp</mi><mrow><mo>(</mo><msubsup><mi>&mu;</mi><mi>nm</mi><mi>l</mi></msubsup><mo>-</mo><msubsup><mi>&mu;</mi><mi>m</mi><mi>l</mi></msubsup><mo>)</mo></mrow><mo>)</mo></mrow><mo>,</mo><mi>m</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>M</mi></mrow></math>]]></maths><maths num="028"><![CDATA[ <math><mrow><mi>&Delta;</mi><msubsup><mover><mi>&mu;</mi><mo>^</mo></mover><mi>m</mi><mi>l</mi></msubsup><mo>=</mo><mfrac><msubsup><mi>&Delta;&mu;</mi><mi>m</mi><mi>l</mi></msubsup><mrow><mn>1</mn><mo>+</mo><mi>exp</mi><mrow><mo>(</mo><msubsup><mi>&mu;</mi><mi>nm</mi><mi>l</mi></msubsup><mo>-</mo><msubsup><mi>&mu;</mi><mi>m</mi><mi>l</mi></msubsup><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>    (10.4).把补偿的模型状态转换到MFCC倒谱域<maths num="029"><![CDATA[ <math><mrow><msup><mover><mi>&mu;</mi><mo>^</mo></mover><mi>c</mi></msup><mo>=</mo><mi>Tr</mi><msup><mover><mi>&mu;</mi><mo>^</mo></mover><mi>l</mi></msup><mo>,</mo><msup><mrow><mi>&Delta;</mi><mover><mi>&mu;</mi><mo>^</mo></mover></mrow><mi>c</mi></msup><mo>=</mo><mi>Tr</mi><msup><mrow><mi>&Delta;</mi><mover><mi>&mu;</mi><mo>^</mo></mover></mrow><mi>l</mi></msup><mo>;</mo></mrow></math>]]></maths>    (10.5).当状态输入完毕,输出剩余噪声补偿后的语音模型;(11).特征加权的维特比识别译码:(11.1).输入剩余噪声补偿后的语音模型、增强语音当前帧MFCC特征<img file="A0212414400059.GIF" wi="42" he="51" />、对数谱特征权重w<sub>m</sub>(t);    (11.2).计算观测帧在候选状态下的对数概率似然值:        (11.2.1).在MFCC倒谱域计算MFCC特征与可选状态的状态均值的矢量差:<maths num="030"><![CDATA[ <math><mrow><msup><mi>d</mi><mi>c</mi></msup><mo>=</mo><msup><msub><mi>y</mi><mi>t</mi></msub><mi>c</mi></msup><mo>-</mo><msup><mi>u</mi><mi>c</mi></msup><mo>;</mo></mrow></math>]]></maths>        (11.2.2).把差矢量变换到对数谱特征域:d<sup>l</sup>=Tr<sup>-1</sup>d<sup>c</sup>;        (11.2.3).在对数谱域进行加权,并变换回MFCC倒谱域d<sup>c</sup>=TrWd<sup>l</sup>;        (11.2.4).计算对数概率似然值:<maths num="031"><![CDATA[ <math><mrow><mi>log</mi><mrow><mo>(</mo><mi>p</mi><mrow><mo>(</mo><msup><msub><mi>y</mi><mi>t</mi></msub><mi>c</mi></msup><mo>|</mo><mi>q</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>i</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mi>C</mi><mrow><mo>(</mo><msup><mi>&Sigma;</mi><mi>c</mi></msup><mo>)</mo></mrow><mo>-</mo><msup><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow><msup><mover><mi>d</mi><mo>&RightArrow;</mo></mover><mi>cT</mi></msup></msup><msup><mrow><mo>(</mo><msup><mi>&Sigma;</mi><mi>c</mi></msup><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><msup><mover><mi>d</mi><mo>&RightArrow;</mo></mover><mi>c</mi></msup></mrow></math>]]></maths>    其中∑<sup>c</sup>为倒谱域的状态方差矩阵,且为对角阵∑<sup>c</sup>=Diag{σ<sub>i1</sub>,σ<sub>i2</sub>,..,σ<sub>ir</sub>..},c表示倒谱域,i表示状态;C(∑<sup>c</sup>)表示与<img file="A02124144000512.GIF" wi="49" he="53" />无关的常数项,对应<maths num="032"><![CDATA[ <math><mrow><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><mi>log</mi><mrow><mo>(</mo><msqrt><mn>2</mn><mi>&pi;</mi></msqrt><msub><mi>&sigma;</mi><mi>ir</mi></msub><mo>)</mo></mrow></mrow></math>]]></maths>,R是倒谱    特征的维数。    (11.3).初始化Viterbi译码后,再迭代,计算完t=1,2,...,T帧;    (11.4).计算最大概率<maths num="033"><![CDATA[ <math><mrow><msup><mi>p</mi><mo>*</mo></msup><mo>=</mo><munder><mi>max</mi><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>N</mi></mrow></munder><mo>[</mo><msub><mi>&delta;</mi><mi>T</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>]</mo></mrow></math>]]></maths>和最佳路径的终止状态:<maths num="034"><![CDATA[ <math><mrow><mover><mi>q</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi></mi><mi>max</mi></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>N</mi></mrow></munder><mo>[</mo><msub><mi>&delta;</mi><mi>T</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>]</mo><mo>;</mo></mrow></math>]]></maths>(11.5)通过回溯依次输出最佳路径上的其他状态:<img file="A0212414400063.GIF" wi="603" he="73" />(12).输出识别结果,结束。
地址 100084北京市100084-82信箱