发明名称 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法
摘要 本发明公开了一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,该方法对输入的时域信号经过加窗、分帧后,经傅里叶变换并取模得到该语句的幅度谱;估计得到稀疏的语音成分<img file="DDA0000652176820000011.GIF" wi="33" he="72" />和噪声基矩阵W<sup>(n)</sup>;估计出语音分量和噪声分量后得到增强语音的估计;将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计;利用幅度谱估计和含噪语音的相位重构出增强语音的时域信号。本发明不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类,与经典的基于平稳性假设的谱估计算法SS和MMSE相比,本发明不再依赖于这种平稳性假设,可以较准确的估计出平稳或突变噪声的频谱。
申请公布号 CN104505100A 申请公布日期 2015.04.08
申请号 CN201510005690.4 申请日期 2015.01.06
申请人 中国人民解放军理工大学 发明人 孙蒙;张雄伟;李轶南
分类号 G10L21/0216(2013.01)I;G10L21/0224(2013.01)I 主分类号 G10L21/0216(2013.01)I
代理机构 北京科亿知识产权代理事务所(普通合伙) 11350 代理人 汤东凤
主权项 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其特征在于,所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法包括:步骤一、对输入的时域信号y(n),经过加窗、分帧后,对每帧实施短时傅里叶变换并取模得到该语句的幅度谱Y;步骤二、利用鲁棒非负矩阵分解模块,估计得到稀疏的语音成分<img file="FDA0000652176790000011.GIF" wi="54" he="75" />和噪声基矩阵W<sup>(n)</sup>;步骤三、将<img file="FDA0000652176790000012.GIF" wi="42" he="84" />加权,与含噪语音幅度谱Y和噪声基矩阵W<sup>(n)</sup>一起输入到分块非负矩阵分解模块中,估计出语音分量W<sup>(s)</sup>H<sup>(s)</sup>和噪声分量W<sup>(n)</sup>H<sup>(n)</sup>,经过维纳滤波后得到增强语音的估计<img file="FDA0000652176790000013.GIF" wi="89" he="76" />步骤四、将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计;步骤五、利用所得的幅度谱估计和含噪语音的相位,重构出增强语音的时域信号<img file="FDA0000652176790000014.GIF" wi="129" he="59" />
地址 210007 江苏省南京市秦淮区后标营路88号
您可能感兴趣的专利