发明名称 应用于双麦克风系统的语音增强方法
摘要 本发明提供一种应用于双麦克风系统的语音增强方法,该双麦克风系统包括由第一麦克风和第二麦克风构成的麦克风阵列模块;用于接收该麦克风阵列模块发出的信号并控制该麦克风阵列的控制模块;用于接收控制模块发出的数据的处理模块;用于将处理模块输出的数据经过处理后输出的输出模块;该方法包括如下步骤:第一麦克风和第二麦克风分别接收到时域带噪语音信号(S1),(S2)后,传送给控制模块,由控制模块对时域带噪语音信号(S1),(S2)分别进行分帧、预加重处理、经短时傅里叶变换将时域带噪语音信号(S1),(S2)别变换成频域带噪音信号(X1),(X2)。提高了对于相关噪声的衰减。
申请公布号 CN101916567B 申请公布日期 2012.02.01
申请号 CN200910109825.6 申请日期 2009.11.23
申请人 瑞声声学科技(深圳)有限公司;瑞声声学科技(常州)有限公司 发明人 叶利剑
分类号 G10L21/02(2006.01)I;H04R9/08(2006.01)I 主分类号 G10L21/02(2006.01)I
代理机构 代理人
主权项 1.一种应用于双麦克风系统的语音增强方法,该双麦克风系统包括由第一麦克风和第二麦克风构成的麦克风阵列模块;用于接收该麦克风阵列模块发出的信号并控制该麦克风阵列的控制模块;用于接收控制模块发出的数据的处理模块;用于将处理模块输出的数据经过处理后输出的输出模块;其特征在于包括如下步骤:步骤1.第一麦克风和第二麦克风分别接收到时域带噪语音信号S1,S2后,传送给控制模块,由控制模块对时域带噪语音信号S1,S2分别进行分帧、预加重处理、经短时傅里叶变换将时域带噪语音信号S1,S2分别变换成频域带噪语音信号X1,X2;其中分帧时使相邻两帧的时域带噪语音信号之间有混叠部分;步骤2.由处理模块接收频域带噪语音信号X1,X2,并分别得到频域带噪语音信号X1,X2自功率谱和频域带噪语音信号X1,X2的互功率谱,由处理模块根据得到的当前帧的先验信噪比值,得到当前帧频域带噪语音信号X1或X2的衰减增益;由处理模块用上述得到的衰减增益,乘以第一麦克风或第二麦克风频域带噪语音信号的自功率谱,得到处理后的纯净语音估计信号的自功率谱;通过前一帧的衰减增益得到当前帧频域带噪语音信号X1,X2的噪声互功率频谱;由处理模块通过得到的噪声互功率谱得到当前帧频域带噪语音信号X1,X2的后验信噪比,并得到当前帧的先验信噪比值,输出给输出模块;得到频域带噪语音信号X1,X2自功率谱和频域带噪语音信号X1,X2的互功率谱的方法为:<img file="FSB00000635460500011.GIF" wi="1365" he="164" />其中,m表示当前帧的序号,f表示经过短时傅利叶变换后不同的频率点,λ<sub>x</sub>=0.6为平滑因子;P<sub>XiXj</sub>表示经平滑后的信号的能量谱;X<sub>i</sub>(f,m)代表变换到频域的两路信 号;m表示第m帧信号;X<sub>j</sub><sup>*</sup>(f,m)代表信号取共轭;当i=j=1,表示第一麦克风接收到的频域带噪语音信号X1的自功率谱;当i=j=2,表示第二麦克风接收到的频域带噪语音信号X2的自功率谱;当i=1、j=2,表示第一麦克风与第二麦克风接收到频域带噪语音信号X1,X2的互功率谱;得到当前帧噪音互功率频谱的方法为<img file="FSB00000635460500021.GIF" wi="1467" he="82" />其中,λ<sub>n</sub>=0.9为平滑因子,q(f,m-1)表示前一帧计算得到并储存的衰减增益因子,P<sub>N1N2</sub>(f,m)表示当前帧的噪音互功率谱,m表示当前帧的序号,f表示不同的频率点;得到当前帧信号的后验信噪比的方法为:<img file="FSB00000635460500022.GIF" wi="833" he="177" />其中SNR<sub>post</sub>(f,m)表示当前帧的后验信噪比,m表示当前帧的序号,f表示不同的频率点;得到当前帧的先验信噪比的方法为:<img file="FSB00000635460500023.GIF" wi="1871" he="228" />其中<img file="FSB00000635460500024.GIF" wi="295" he="74" />表示当前帧的先验信噪比,m表示当前帧的序号,f表示不同的频率点,q(f,m-1)表示前一帧计算得到并储存的衰减增益因子,P<sub>N1N2</sub>(f,m)表示当前帧的噪音互功率谱,SNR<sub>post</sub>(f,m)表示当前帧的后验信噪比,α是平滑因子,取值在0.7~0.9;衰减增益得到方法为:<img file="FSB00000635460500025.GIF" wi="1683" he="324" />其中q(f,m)表示衰减增益因子,<img file="FSB00000635460500026.GIF" wi="293" he="77" />表示当前帧的先验信噪 比,m表示当前帧的序号,f表示不同的频率点,P<sub>XiXj</sub>(f,m)表示当前帧频域带噪语音信号的自功率谱和互功率谱,SNR<sub>post</sub>(f,m)表示当前帧的后验信噪比;步骤2中,将第一麦克风当前帧的带噪语音信号X<sub>1</sub>(f,m),乘以前一帧得到的相应频率点的衰减增益因子,得到的就是该频点的增强后的语音信号<img file="FSB00000635460500031.GIF" wi="575" he="68" />其中,<img file="FSB00000635460500032.GIF" wi="155" he="64" />为m帧第f个频点增强后的语音信号估计值,q(f,m)表示衰减增益因子;步骤3.由输出模块将处理后的频域信号变换到时间域,进行去加重处理,变成输出信号。
地址 518057 广东省深圳市南山区高新技术产业园北区新西路18号