发明名称 一种基于似然比测试的噪声鲁棒性的检测方法
摘要 本发明公开了一种基于似然比测试的噪声鲁棒性的检测方法,分别从信噪比的估计、阈值的鲁棒性设置和拖尾失真消除三个方面进行改进,使得提出的算法相对于现有技术在低信噪比环境下尤其是非平稳噪声环境下具有更好的检测性能。本发明所述的方法与基于谐波特征的多观测似然比测试算法具有相似的语音边界检测正确率,但却比基于谐波特征的多观测似然比测试算法具有更好的声音检测精度,从而验证本方法要比传统的方法在性能上更为优异;同时,本方法在15dB和25dB的信噪比下具有相似的性能,说明它对噪声具有很好的鲁棒性;本发明在实际环境中可以作为语音识别或者声纹识别系统的前端预处理重要的有效方法,拥有很好的应用价值。
申请公布号 CN105575406A 申请公布日期 2016.05.11
申请号 CN201610008285.2 申请日期 2016.01.07
申请人 深圳市音加密科技有限公司 发明人 李为;朱杰;包旭雷
分类号 G10L25/87(2013.01)I;G10L25/21(2013.01)I;G10L25/18(2013.01)I;G10L21/0232(2013.01)I 主分类号 G10L25/87(2013.01)I
代理机构 岳阳市科明专利事务所 43203 代理人 彭乃恩;陈庆元
主权项 一种基于似然比测试的噪声鲁棒性的检测方法,包括以下步骤:S1、通过维纳滤波器对带噪语音信号进行语音增强,以便减弱带噪语音中的噪声信号对干净语音的影响,且提高过滤后的噪声信号的平稳特性;经过维纳滤波器语音增强后的带噪语音信号<img file="dest_path_image002.GIF" wi="97" he="19" />干净语音<img file="dest_path_image004.GIF" wi="32" he="18" />和干扰噪声<img file="dest_path_image006.GIF" wi="245" he="22" />其中,n为时间采样索引,且此时通过维纳滤波器后的干净语音信号和干扰噪声可以具备统计独立且均值为零的特性;S2、对带噪语音进行傅立叶变换,经过滤波的带噪语音信号在频谱域上通过干净语音信号的频谱因子叠加干扰噪声的频谱因子得到;<img file="dest_path_image008.GIF" wi="409" he="20" />(1)其中,<img file="dest_path_image010.GIF" wi="50" he="19" />、<img file="dest_path_image012.GIF" wi="53" he="20" />和<img file="dest_path_image014.GIF" wi="52" he="19" />为每帧信号的短时傅立叶因子,m为帧索引,k为帧内的各个频段值,<img file="dest_path_image016.GIF" wi="17" he="16" />和<img file="dest_path_image018.GIF" wi="17" he="17" />分别表示非语音帧和语音帧;S3、计算似然比,干净语音信号和噪声信号的概率密度都满足高斯分布时,观测信号<img file="644876dest_path_image010.GIF" wi="50" he="18" />在<img file="226030dest_path_image016.GIF" wi="19" he="18" />和<img file="748147dest_path_image018.GIF" wi="17" he="17" />下的概率密度函数为<img file="dest_path_image020.GIF" wi="307" he="41" /><img file="dest_path_image022.GIF" wi="383" he="33" />(2)其中<img file="dest_path_image024.GIF" wi="174" he="22" />为语音信号的功率谱,<img file="dest_path_image026.GIF" wi="179" he="24" />为噪声信号的功率谱;该帧第k频段的似然比值为:<img file="dest_path_image028.GIF" wi="264" he="37" />(3)其中,<img file="dest_path_image030.GIF" wi="181" he="23" />,<img file="dest_path_image032.GIF" wi="192" he="24" />分别表示先验信噪比和后验信噪比,且先验信噪比<img file="dest_path_image034.GIF" wi="29" he="21" />和后验信噪比<img file="dest_path_image036.GIF" wi="30" he="16" />在直接决策估计器中存在着以下关系:<img file="dest_path_image038.GIF" wi="285" he="32" />(4)其中<img file="dest_path_dest_path_image021.GIF" wi="581" he="23" />一帧的噪声功率谱;S4、 进行噪声估计,并设定阈值<img file="dest_path_image042.GIF" wi="9" he="13" />,将阈值<img file="343645dest_path_image042.GIF" wi="9" he="13" />与似然比的值相比较来确定当前帧为语音段或非语音段,当似然比的值大于阈值时,初次判定该帧为语音帧,而当似然比的值小于阈值时,就认定该帧为非语音帧,具体可以通过如下公式表示:<img file="dest_path_image044.GIF" wi="213" he="28" />(5)其中,K为频带总数;<img file="484777dest_path_image016.GIF" wi="17" he="17" />和<img file="668240dest_path_image018.GIF" wi="16" he="17" />分别表示非语音帧和语音帧;S5、确定决策规则,m帧的对数似然比为:<img file="dest_path_image046.GIF" wi="268" he="52" /><img file="dest_path_image048.GIF" wi="189" he="23" />表示以<img file="dest_path_image050.GIF" wi="17" he="19" />为中心的连续2M+1帧,则以这2M+1个对数似然比为对象的判决规则为:<img file="dest_path_image052.GIF" wi="200" he="55" />其中<img file="dest_path_image054.GIF" wi="100" he="21" />对于其中的第k频段下的对数似然比<img file="dest_path_image056.GIF" wi="53" he="19" />,将观测信号在<img file="881965dest_path_image018.GIF" wi="17" he="17" />和<img file="19554dest_path_image016.GIF" wi="17" he="18" />的概率代入其中得到:<img file="dest_path_image058.GIF" wi="200" he="16" />先验信噪比<img file="dest_path_image060.GIF" wi="44" he="22" />后验信噪比通过最大似然估计算法得到,即:<img file="dest_path_image062.GIF" wi="105" he="18" />因此,对数似然比的值取决于噪声能量谱<img file="dest_path_image064.GIF" wi="61" he="21" />;S6、拖尾失真消除,当信噪比低时,噪声能量谱<img file="590475dest_path_image064.GIF" wi="61" he="22" />变大,通过降低选取的阈值<img file="942959dest_path_image042.GIF" wi="9" he="13" />来降低发声段误判概率;反之,通过增大阈值<img file="570993dest_path_image042.GIF" wi="9" he="14" />来和高信噪比信号进行匹配;带噪语音功率谱谱<img file="dest_path_image066.GIF" wi="52" he="18" />由带噪信号功率谱<img file="dest_path_image068.GIF" wi="71" he="20" />平滑得到,平滑因子<img file="dest_path_image070.GIF" wi="53" he="20" />为时频相关函数,则:<img file="dest_path_image072.GIF" wi="363" he="17" />其<img file="dest_path_image074.GIF" wi="267" he="20" />利用基于最小统计的噪声估计就可以得到每帧信号最小噪声功率谱<img file="dest_path_image076.GIF" wi="81" he="25" />,与所述噪声能量谱相关的阈值<img file="dest_path_image078.GIF" wi="21" he="16" />为:<img file="dest_path_image080.GIF" wi="247" he="76" />其中<img file="dest_path_image082.GIF" wi="18" he="16" />是该阈值的一个常系数。
地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室