发明名称 基于MMSE误差准则的先验信噪比估计方法
摘要 本发明公开了一种用于语音增强的基于MMSE误差准则的先验信噪比估计方法,属于语音信号处理技术领域。针对语音增强技术中的先验信噪比估计问题,首先基于MMSE误差准则对含噪语音的先验信噪比作初步估计,所得的先验信噪比估计值通过维纳滤波计算得到第一个系统增益因子,利用第一个系统增益因子和含噪语音幅度谱值计算得到语音功率谱估计值,再利用所得的语音功率谱估计值和噪声的功率谱估计值对先验信噪比进行再一次估计,得到最终的先验信噪比估计值。该先验信噪比估计值代入后续的语音增强步骤中处理,得到去噪的估计清音信号。基于MMSE误差准则的先验信噪比估计方法既有效地抑制了估计清音中的背景噪声成分,又避免了对清音成分的过度损伤,使得估计清音的听觉质量得以改善,语音增强算法的性能得以提高。
申请公布号 CN105280193A 申请公布日期 2016.01.27
申请号 CN201510427618.0 申请日期 2015.07.20
申请人 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 发明人 李宇;林胜义;谭洪舟;农革
分类号 G10L21/0232(2013.01)I 主分类号 G10L21/0232(2013.01)I
代理机构 广州粤高专利商标代理有限公司 44102 代理人 林丽明
主权项 一种基于MMSE误差准则的先验信噪比估计方法,其特征在于,包括:1)将含噪语音信号y<sub>t</sub>进行分帧和加窗处理,得到含噪语音帧信号y<sub>t</sub>(n);2)对含噪语音帧信号y<sub>t</sub>(n)进行离散傅里叶变换,即得到含噪语音第n帧第k频率成分的离散幅度谱值y<sub>t</sub>(n,k);3)对含噪语音第n帧第k频率成分的离散幅度谱值y<sub>t</sub>(n,k)进行噪声成分功率谱的估计,得到第n帧第k频率噪声功率谱估计值<img file="FDA0000763302650000011.GIF" wi="198" he="85" />通过一帧延时得到前一帧第k频率的清音幅度谱估计值<img file="FDA0000763302650000012.GIF" wi="221" he="70" />并用该值计算得到前一帧第k频率清音功率谱估计值<img file="FDA0000763302650000013.GIF" wi="269" he="79" />4)将含噪语音第n帧第k频率成分的离散幅度谱值y<sub>t</sub>(n,k)和第n帧第k频率噪声的功率谱估计值<img file="FDA0000763302650000014.GIF" wi="177" he="85" />用于计算第n帧第k频率语音的后验信噪比<img file="FDA0000763302650000015.GIF" wi="106" he="87" />将前一帧第k频率的清音功率谱估计值<img file="FDA0000763302650000016.GIF" wi="237" he="79" />和第n帧第k频率噪声功率谱估计值<img file="FDA0000763302650000017.GIF" wi="179" he="79" />用于计算前一帧第k频率语音的先验信噪比<img file="FDA0000763302650000018.GIF" wi="134" he="86" />5)第n帧第k频率语音的后验信噪比<img file="FDA0000763302650000019.GIF" wi="86" he="85" />和前一帧第k频率先验信噪比<img file="FDA00007633026500000110.GIF" wi="109" he="85" />代入到MMSE先验信噪比的估计计算中,即得到第n帧第k频率成分的MMSE先验信噪比估计值<img file="FDA00007633026500000111.GIF" wi="199" he="91" />6)用维纳滤波方法和步骤5)中所得第n帧第k频率成分的MMSE先验信噪比估计值<img file="FDA00007633026500000112.GIF" wi="171" he="87" />计算出第一个系统增益因子G1(n,k),利用第一个增益因子G1(n,k)和含噪语音第n帧第k频率成分的离散幅度谱值y<sub>t</sub>(n,k)估计第n帧第k频率的语音功率谱值<img file="FDA00007633026500000113.GIF" wi="206" he="78" />该功率谱估计值<img file="FDA00007633026500000114.GIF" wi="178" he="78" />结合第n帧第k频率噪声功率谱估计值<img file="FDA00007633026500000115.GIF" wi="179" he="79" />对先验信噪比进行再一次估计,得到最终的先验信噪比估计值<img file="FDA00007633026500000116.GIF" wi="198" he="102" />7)最终的先验信噪比估计值<img file="FDA0000763302650000021.GIF" wi="178" he="103" />结合含噪语音第n帧第k频率成分的幅度谱值y<sub>t</sub>(n,k)对第n帧第k频率的清音幅度谱值进行估计,得到第n帧第k频率清音幅度谱的估计值<img file="FDA0000763302650000022.GIF" wi="183" he="71" />8)对第n帧第k频率清音幅度谱估计值<img file="FDA0000763302650000023.GIF" wi="158" he="70" />进行离散傅里叶逆变换,得到估计清音帧信号<img file="FDA0000763302650000024.GIF" wi="140" he="71" />9)估计清音帧信号<img file="FDA0000763302650000025.GIF" wi="118" he="70" />进行去窗和重叠相加处理,得到估计清音信号<img file="FDA0000763302650000026.GIF" wi="73" he="69" />
地址 528300 广东省佛山市顺德区大良街道办广东顺德中山大学卡内基梅隆大学国际联合研究院