一种基于音频识别的语音降噪方法,申请号CN200810226951.5-传众专利搜索

发明名称	一种基于音频识别的语音降噪方法
摘要	本发明提出了一种基于音频识别的语音降噪方法，针对复杂噪声环境下的语音通信在接收端进行降噪处理，属于计算机科学技术领域。现有降噪方法多数只适用于噪声平稳环境，对于复杂的噪声环境，特别是突变性噪声频繁等情况难以有效去除。本方法将模式识别思想引入通信语音降噪，把音频信号分成语音和非语音，通过提取语音特征和设计分类器模型，对输入信号进行自动识别，判断音频类型，如果是噪音则去除，如果是语音则予以保留并进一步处理。该方法在取得较好降噪效果的同时满足了实时性要求，可以适用于载人航天试验语音通信、施工现场、战场等其它通信环境复杂的情况，为信号降噪提供了一种思路和方法。
申请公布号	CN101404160B	申请公布日期	2011.05.04
申请号	CN200810226951.5	申请日期	2008.11.21
申请人	北京科技大学	发明人	郝红卫;高玉峰;温博
分类号	G10L21/02(2006.01)I	主分类号	G10L21/02(2006.01)I
代理机构		代理人
主权项	1.一种基于音频识别的语音降噪方法，其特征在于：方法包括信号输入及预处理、特征提取、音频信号分类、信号去噪四步骤组成；步骤一、信号输入及预处理：获取原始输入信号，以20ms为一帧，对原始信号进行分帧，然后加汉明窗处理；以10帧为单位进行第二步处理，每次步长为5帧；步骤二、特征提取：采用Mel倒谱系数及其一阶差分、子频带能量分布对音频信号提取有效的语音特征；具体提取过程如下：1)Mel倒谱系数(MFCC)及其一阶差分①对输入的10帧信号进行离散FFT变换，求出频谱平方；②设计一个有M个滤波器的滤波器组，M取值为3*log(fs)，fs为采样频率，采用的滤波器为三角滤波器，中心频率为f(a)，a＝1、2、...M，滤波器组中每个三角滤波器的跨度在Mel标度上是相等的，每个滤波器输出的对数能量为：<img file="FSB00000437511600011.GIF" wi="803" he="120" />，用这M个Mel带通滤波器对输入信号进行滤波；其中，k为滤波器应用范围的频率，X(k)为语音信号的离散傅立叶变换值，N表示傅立叶变换的点数，H<sub>m</sub>(k)为三角滤波器的频率响应值；③将每个滤波器的输出取对数，得到相应频带的对数功率谱，经离散余弦变换得到Mel倒谱系数：<img file="FSB00000437511600012.GIF" wi="1019" he="121" />④差分参数的计算采用公式：<maths num="0001"><![CDATA[<math><mrow><mi>d</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msqrt><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>k</mi></mrow><mi>k</mi></munderover><msup><mi>i</mi><mn>2</mn></msup></msqrt></mfrac><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>k</mi></mrow><mi>k</mi></munderover><mi>i</mi><mo>·</mo><mi>C</mi><mrow><mo>(</mo><mi>n</mi><mo>+</mo><mi>i</mi><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>其中C表示一帧语音参数，k为2，这时差分参数称为当前帧的前两帧和后两帧的参数组合，由此式计算得到的差分参数为Mel倒谱系数一阶差分参数；2)子频带能量分布第n帧的整个频带的功率谱能量可以表示如下：<img file="FSB00000437511600014.GIF" wi="381" he="81" />，其中F(ω)是快速傅立叶变换函数，ω<sub>0</sub>是信号采样频率的一半，每个子频带的子频带能量分布用如下公式表示：<img file="FSB00000437511600015.GIF" wi="556" he="119" />；其中，H<sub>j</sub>、L<sub>j</sub>分别为第j个子频带的最高频率和最低频率；步骤三、音频信号分类：选用K近邻分类方法对音频信号进行分类；读取训练样本特征向量矩阵，分别计算上一步得到的特征向量与各类别训练样本特征向量的距离，取b个近邻投票分类，其中b为奇数，得出音频识别结果；步骤四、信号去噪：采用二次分类对语噪识别方法进行改进，当音频信号输入时，为输入设置输入单位，当两次都分类为噪音时去除重叠的部分；输入单位为10帧，每次前进5帧。
地址	100083 北京市海淀区学院路30号