发明名称 通过噪声水平估计调整进行的语音增强
摘要 增强由语音和噪声分量组成的音频信号的语音分量包含控制其子带的各子带中音频信号的增益,其中就语音分量的水平而言,随着估计噪声分量的水平的增加,子带中的增益被降低,其中至少部分地通过下述操作来确定估计噪声分量的水平:(1)将估计噪声分量水平和子带中音频信号的水平相比较,和当子带中的输入信号水平在超过指定时间的时间上以一个极限量超过子带中的估计噪声分量水平时,将子带中的估计噪声分量水平增加一个预定量,或(2)获得和监视所述子带中的信噪比,和在所述子带中的信噪比在超过指定时间的时间上超出极限时,将所述子带中的估计噪声分量水平增加预定量。
申请公布号 CN101802909B 申请公布日期 2013.07.10
申请号 CN200880106338.8 申请日期 2008.09.10
申请人 杜比实验室特许公司 发明人 俞容山
分类号 G10L21/0208(2013.01)I 主分类号 G10L21/0208(2013.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 杜诚;李春晖
主权项 1.一种增强由语音和噪声分量组成的音频信号的语音分量的方法,包括:将音频信号从时域转变到频域中的多个子带,从而产生K个子带信号Y<sub>k</sub>(m),其中k=1,...,K,m=0,1,...,∞,k是子带编号,并且m是每个子带信号的时间索引,处理音频信号的子带,所述处理包含控制所述子带的各子带中音频信号的增益GNR<sub>k</sub>(m),其中就语音分量的水平而言,随着估计噪声分量的水平的增加,子带中的增益被降低,其中所述增益GNR<sub>k</sub>(m)被表示成:<maths num="0001"><![CDATA[<math><mrow><msub><mi>GNR</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mn>1</mn><mo>-</mo><mi>&alpha;</mi><mfrac><mrow><msub><mi>&lambda;</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow></mrow><msup><mrow><mo>|</mo><msub><mi>Y</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>2</mn></msup></mfrac></msqrt><mo>,</mo></mrow></math>]]></maths>其中,|Y<sub>k</sub>(m)|是所述子带信号Y<sub>k</sub>(m)的幅度,λ<sub>k</sub>(m)是子带k中的噪声能量,并且α是″过减法″系数,且α>1,其中噪声能量λ<sub>k</sub>(m)通过下式来提供:<maths num="0002"><![CDATA[<math><mrow><msub><mi>&lambda;</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><msub><mi>&beta;&lambda;</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&beta;</mi><mo>)</mo></mrow><msup><mrow><mo>|</mo><msub><mi>Y</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>2</mn></msup></mtd><mtd><mi>VAD</mi><mo>=</mo><mn>0</mn><mo>;</mo></mtd></mtr><mtr><mtd><msub><mi>&lambda;</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mtd><mtd><mi>VAD</mi><mo>=</mo><mn>1</mn><mo>.</mo></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>其中,VAD表示语音活动检测功能,VAD=0表示语音不存在,而VAD=1表示语音存在,并且参数β是具有0<<β<1的值的平滑因子,其中至少部分地通过下述操作来确定估计噪声分量的水平:将估计噪声分量水平和所述子带中音频信号的水平相比较,和当所述子带中的输入信号水平在超过指定时间的时间上以一个极限量超过所述子带中的估计噪声分量水平时,将所述子带中的估计噪声分量水平增加一个预定量,其中通过引入切换计数器h<sub>k</sub>,根据计数器d<sub>k</sub>更新所述指定时间,所述计数器d<sub>k</sub>对于临时信号波动造成的假报警和复位而言是健壮的,其中,所述计数器d<sub>k</sub>被表示成:<img file="FSB00001032566400021.GIF" wi="808" he="139" />其中,μ是预定常数,λ<sub>k</sub>′(m)是估计噪声水平,并且η<sub>k</sub>(m)是要调整的输入信号并被表示成:η<sub>k</sub>(m)=κη<sub>k</sub>(m-1)+(1-κ)|Y<sub>k</sub>(m)|<sup>2</sup>,其中,κ是具有0<<κ<1的值的平滑因子,其中,所述切换计数器h<sub>k</sub>被表示成:<img file="FSB00001032566400022.GIF" wi="826" he="152" />其中,h<sub>max</sub>是预定整数,以及将所处理的音频信号从频域转变到时域以提供增强语音分量的音频信号。
地址 美国加利福尼亚州