发明名称 一种基于音频识别的语音降噪方法
摘要 本发明提出了一种基于音频识别的语音降噪方法,针对复杂噪声环境下的语音通信在接收端进行降噪处理,属于计算机科学技术领域。现有降噪方法多数只适用于噪声平稳环境,对于复杂的噪声环境,特别是突变性噪声频繁等情况难以有效去除。本方法将模式识别思想引入通信语音降噪,把音频信号分成语音和非语音,通过提取语音特征和设计分类器模型,对输入信号进行自动识别,判断音频类型,如果是噪音则去除,如果是语音则予以保留并进一步处理。该方法在取得较好降噪效果的同时满足了实时性要求,可以适用于载人航天试验语音通信、施工现场、战场等其它通信环境复杂的情况,为信号降噪提供了一种思路和方法。
申请公布号 CN101404160B 申请公布日期 2011.05.04
申请号 CN200810226951.5 申请日期 2008.11.21
申请人 北京科技大学 发明人 郝红卫;高玉峰;温博
分类号 G10L21/02(2006.01)I 主分类号 G10L21/02(2006.01)I
代理机构 代理人
主权项 1.一种基于音频识别的语音降噪方法,其特征在于:方法包括信号输入及预处理、特征提取、音频信号分类、信号去噪四步骤组成;步骤一、信号输入及预处理:获取原始输入信号,以20ms为一帧,对原始信号进行分帧,然后加汉明窗处理;以10帧为单位进行第二步处理,每次步长为5帧;步骤二、特征提取:采用Mel倒谱系数及其一阶差分、子频带能量分布对音频信号提取有效的语音特征;具体提取过程如下:1)Mel倒谱系数(MFCC)及其一阶差分①对输入的10帧信号进行离散FFT变换,求出频谱平方;②设计一个有M个滤波器的滤波器组,M取值为3*log(fs),fs为采样频率,采用的滤波器为三角滤波器,中心频率为f(a),a=1、2、...M,滤波器组中每个三角滤波器的跨度在Mel标度上是相等的,每个滤波器输出的对数能量为:<img file="FSB00000437511600011.GIF" wi="803" he="120" />,用这M个Mel带通滤波器对输入信号进行滤波;其中,k为滤波器应用范围的频率,X(k)为语音信号的离散傅立叶变换值,N表示傅立叶变换的点数,H<sub>m</sub>(k)为三角滤波器的频率响应值;③将每个滤波器的输出取对数,得到相应频带的对数功率谱,经离散余弦变换得到Mel倒谱系数:<img file="FSB00000437511600012.GIF" wi="1019" he="121" />④差分参数的计算采用公式:<maths num="0001"><![CDATA[<math><mrow><mi>d</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>k</mi></mrow><mi>k</mi></munderover><msup><mi>i</mi><mn>2</mn></msup></msqrt></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>k</mi></mrow><mi>k</mi></munderover><mi>i</mi><mo>&CenterDot;</mo><mi>C</mi><mrow><mo>(</mo><mi>n</mi><mo>+</mo><mi>i</mi><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>其中C表示一帧语音参数,k为2,这时差分参数称为当前帧的前两帧和后两帧的参数组合,由此式计算得到的差分参数为Mel倒谱系数一阶差分参数;2)子频带能量分布第n帧的整个频带的功率谱能量可以表示如下:<img file="FSB00000437511600014.GIF" wi="381" he="81" />,其中F(ω)是快速傅立叶变换函数,ω<sub>0</sub>是信号采样频率的一半,每个子频带的子频带能量分布用如下公式表示:<img file="FSB00000437511600015.GIF" wi="556" he="119" />;其中,H<sub>j</sub>、L<sub>j</sub>分别为第j个子频带的最高频率和最低频率;步骤三、音频信号分类:选用K近邻分类方法对音频信号进行分类;读取训练样本特征向量矩阵,分别计算上一步得到的特征向量与各类别训练样本特征向量的距离,取b个近邻投票分类,其中b为奇数,得出音频识别结果;步骤四、信号去噪:采用二次分类对语噪识别方法进行改进,当音频信号输入时,为输入设置输入单位,当两次都分类为噪音时去除重叠的部分;输入单位为10帧,每次前进5帧。
地址 100083 北京市海淀区学院路30号