发明名称 一种基于谱估计的瞬态噪声抑制方法
摘要 本发明公开了一种基于谱估计的瞬态噪声抑制方法,属于数字信号处理技术领域。本发明包括以下几步:第一步:基于改进的最小控制递归平滑的非瞬态背景噪声功率谱估计:第二步:基于改进最小控制递归平滑和最优修正对数谱幅度估计的瞬态噪声功率谱估计:第三步:基于最优修正对数谱幅度估计及瞬态噪声谱估计的语音噪声抑制。
申请公布号 CN103456310B 申请公布日期 2017.02.22
申请号 CN201310383122.9 申请日期 2013.08.28
申请人 大连理工大学 发明人 陈喆;殷福亮;张兆伟
分类号 G10L21/0216(2013.01)I 主分类号 G10L21/0216(2013.01)I
代理机构 大连东方专利代理有限责任公司 21212 代理人 曲永祚;李洪福
主权项 一种基于谱估计的瞬态噪声抑制方法,其特征在于:包括以下几步:第一步:基于改进的最小控制递归平滑的非瞬态背景噪声功率谱估计;第二步:基于改进最小控制递归平滑和最优修正对数谱幅度估计的瞬态噪声功率谱估计;第三步:基于非瞬态背景噪声功率谱估计、最优修正对数谱幅度估计及瞬态噪声谱估计的语音噪声功率谱抑制;基于改进的最小控制递归平滑的非瞬态背景噪声谱估计步骤如下:(1)定义纯净语音信号为x(n),加性噪声为d(n),观测信号为y(n),y(n)=x(n)+d(n),对观测信号y(n)进行加窗分帧操作,并进行短时傅立叶变换:<img file="FDA0001130124800000011.GIF" wi="726" he="128" />其中,n为时域索引,n=0,1,…,N‑1,k为频率索引,k=0,1,…,N‑1,l为时域帧的索引,h(n)为窗函数,N为帧长,256≤N≤2048,也是窗口宽度,M为帧移,0.25N≤M≤0.75N;(2)短时功率谱平滑对于不存在语音的观测信号帧,用短时递归平滑法来平滑时变噪声功率谱<img file="FDA0001130124800000012.GIF" wi="181" he="71" /><img file="FDA0001130124800000013.GIF" wi="1061" he="71" /><img file="FDA0001130124800000014.GIF" wi="660" he="71" />其中,H<sub>0</sub>(k,l)和H<sub>1</sub>(k,l)分别表示无音和有音两种状态,α<sub>d</sub>为平滑参数,α<sub>d</sub>的取值范围是0&lt;α<sub>d</sub>&lt;1;设条件语音存在概率为p'(k,l)=P(H<sub>1</sub>(k,l)|Y(k,l)),则非瞬态背景噪声功率谱估计为:<img file="FDA0001130124800000015.GIF" wi="1771" he="159" />其中,<img file="FDA0001130124800000016.GIF" wi="151" he="62" />是个时变的平滑的参数,其定义式为:<img file="FDA0001130124800000021.GIF" wi="1310" he="63" />因此,通过平滑当前帧以前的功率谱值获得噪声的功率谱估计,而平滑参数由条件语音存在概率p'(k,l)控制;(3)条件语音存在概率计算最小控制递归平滑方法基于噪声信号能量的局部统计来追踪条件语音存在概率,通过计算当前帧各频点能量与该频点的局部最小值之间的比值,进行有音/无音判决;①通过对短时傅立叶变换幅值的平方加窗来平滑带噪语音信号的功率谱;<img file="FDA0001130124800000022.GIF" wi="622" he="126" />式中,b(i)为长为2w+1的窗函数;②通过一阶递归平均来进一步平滑功率谱;S(k,l)=α<sub>s</sub>S(k,l‑1)+(1‑α<sub>s</sub>)S<sub>f</sub>(k,l),其中,α<sub>s</sub>为平滑参数,α<sub>s</sub>的取值范围是0&lt;α<sub>s</sub>&lt;1;当前能量的最小值S<sub>min</sub>(k,l)通过后向最小值搜索得到,具体如下:S<sub>min</sub>(k,l)=min{S(k,l),S(k,l‑1),...,S(k,l‑L+1)},其中,min{·}表示搜索最小值,L为后向局部搜索窗的长度,针对于不同的说话人及说话环境,该搜索窗的效时间长度为0.5~1.5秒;③条件语音存在概率估计定义<img file="FDA0001130124800000023.GIF" wi="386" he="127" />为含噪信号局部能量与其最小值的比值;则通过与经验阈值δ的比较进行有音/无音判决:<img file="FDA0001130124800000024.GIF" wi="236" he="87" />当S<sub>r</sub>(k,l)&gt;δ时,标记当前频点为有音;否则,当S<sub>r</sub>(k,l)&lt;δ时,标记当前频点为无音;定义I(k,l)为语音存在指示器;<img file="FDA0001130124800000025.GIF" wi="622" he="143" />则条件语音存在概率的估计为:<img file="FDA0001130124800000026.GIF" wi="808" he="71" />其中,α<sub>p</sub>为平滑参数,α<sub>p</sub>的取值范围是0&lt;α<sub>p</sub>&lt;1;将估计的<img file="FDA0001130124800000027.GIF" wi="147" he="63" />代入式(23),计 算时变平滑参数<img file="FDA0001130124800000031.GIF" wi="184" he="62" />进而能估计非瞬态背景噪声功率谱<img file="FDA0001130124800000032.GIF" wi="83" he="70" />基于改进最小控制递归平滑和最优修正对数谱幅度估计的瞬态噪声功率谱估计如下:(1)相对于瞬态噪声,语音信号和背景噪声的功率谱变化较慢,在该步骤中将瞬态噪声视为信号,而将语音和背景噪声非瞬态成分视为噪声,对最小控制递归平滑方法进行改进,通过计算瞬态噪声出现概率来控制非瞬态成分功率谱的递归平滑,使其能够估计观测信号中非瞬态成分的时变功率谱;首先,通过对频谱幅度的平方|Y(k,l)|<sup>2</sup>进行一阶递归平均,得到平滑后的功率谱;S(k,l)=α<sub>s</sub>S(k,l‑1)+(1‑α<sub>s</sub>)|Y(k,l)|<sup>2</sup>,其中,α<sub>s</sub>为用于控制对功率谱快速追踪的平滑参数,α<sub>s</sub>越小,当前帧的权重越大,则能够捕获语音或者背景噪声的快速变化,α<sub>s</sub>取值范围是0.65&lt;α<sub>s</sub>&lt;0.95;瞬态噪声出现概率由平滑后功率谱的局部最小值控制,采用最小控制递归平滑方法,使用局部因果窗来前向搜索最小功率值,能够检测出大部分语音和背景噪声部分;但是,语音音素的起音点处同样具有突发性,如果只采用前向搜索窗计算最小功率值,语音起音点将被错误地判断为瞬态信号,造成后续语音噪声抑制的失真;这里,将未来的时间帧考虑在内,来分辨瞬态噪声和语音起音点,因为瞬态噪声由一个强脉冲和一段短时衰减振荡组成,因此瞬态噪声的能量会迅速衰减,而起音点之后的语音能量在该音素内会保持平稳,因此,在搜索最小功率值时,同时采用了前向因果窗和后向非因果窗进行搜索,具体如下:<img file="FDA0001130124800000033.GIF" wi="1102" he="67" /><img file="FDA0001130124800000034.GIF" wi="1151" he="67" /><img file="FDA0001130124800000035.GIF" wi="838" he="63" />其中,min{·}表示搜索最小值,max{·}表示搜索最大值,L和T分别为前向因果窗和后向非因果窗的长度;该搜索方法避免了语音音素起音点的误判问题;然后,用与最小控制递归平滑中条件语音存在概率估计相同的方法,估计瞬态噪声出现概率,根据瞬态噪声出现概率估计值<img file="FDA0001130124800000036.GIF" wi="170" he="63" />计算用于非瞬态成分功率谱平滑的时变参数<img file="FDA0001130124800000037.GIF" wi="195" he="63" />并利用式(34)递归地估计语音及背景噪声的功率谱<img file="FDA0001130124800000038.GIF" wi="83" he="70" /><img file="FDA0001130124800000039.GIF" wi="1557" he="71" />(2)瞬态噪声谱估计将瞬态噪声作为要进行增强的信号,首先估计的非瞬态成分功率谱<img file="FDA00011301248000000310.GIF" wi="59" he="71" />作为噪声的功率谱,用于计算瞬态噪声的后验信噪比γ<sub>t</sub>;<img file="FDA00011301248000000311.GIF" wi="422" he="143" />令G<sub>f</sub>(k,l)为估计瞬态噪声功率谱的最优频谱增益,则根据式<img file="FDA0001130124800000041.GIF" wi="669" he="71" />该最优频谱增益为:<img file="FDA0001130124800000042.GIF" wi="709" he="78" /><img file="FDA0001130124800000043.GIF" wi="854" he="133" />式中,v<sub>t</sub>(k,l)=γ<sub>t</sub>(k,l)ξ<sub>t</sub>(k,l)/[1+ξ<sub>t</sub>(k,l)],G<sub>min</sub>为瞬态噪声不存在时的频谱增益,ξ<sub>t</sub>(k,l)表示瞬态噪声的先验信噪比,其估计方法如下:<img file="FDA0001130124800000044.GIF" wi="1557" he="77" />其中,<img file="FDA0001130124800000045.GIF" wi="240" he="63" />为有音段的状态增益函数,α<sub>t</sub>为权重因子,α<sub>t</sub>的取值范围是0&lt;α<sub>t</sub>&lt;1,用来控制非瞬态成分消除与瞬态噪声失真之间的取舍;最终通过最优频谱增益估计值G<sub>f</sub>(k,l)与含噪语音幅度谱的平方相乘,得到增强后的瞬态信号功率谱估计<img file="FDA0001130124800000046.GIF" wi="171" he="69" /><img file="FDA0001130124800000047.GIF" wi="1213" he="71" />在这一过程中,将瞬态噪声视为信号,而将语音和其他背景噪声视为噪声,利用瞬态噪声的突变性,实现对非瞬态成分功率谱的平滑与跟踪;再利用最优修正对数谱幅度估计方法计算瞬态噪声的功率谱估计。
地址 116024 辽宁省大连市高新园区凌工路2号