主权项 |
1.一种基于音频识别的语音降噪方法,其特征在于:方法包括信号输入及预处理、特征提取、音频信号分类、信号去噪四步骤组成;步骤一、信号输入及预处理:获取原始输入信号,以20ms为一帧,对原始信号进行分帧,然后加汉明窗处理;以10帧为单位进行第二步处理,每次步长为5帧;步骤二、特征提取:采用Mel倒谱系数及其一阶差分、子频带能量分布对音频信号提取有效的语音特征;具体提取过程如下:1)Mel倒谱系数(MFCC)及其一阶差分①对输入的10帧信号进行离散FFT变换,求出频谱平方;②设计一个有M个滤波器的滤波器组,M取值为3*log(fs),fs为采样频率,采用的滤波器为三角滤波器,中心频率为f(a),a=1、2、...M,滤波器组中每个三角滤波器的跨度在Mel标度上是相等的,每个滤波器输出的对数能量为:<img file="FSB00000437511600011.GIF" wi="803" he="120" />,用这M个Mel带通滤波器对输入信号进行滤波;其中,k为滤波器应用范围的频率,X(k)为语音信号的离散傅立叶变换值,N表示傅立叶变换的点数,H<sub>m</sub>(k)为三角滤波器的频率响应值;③将每个滤波器的输出取对数,得到相应频带的对数功率谱,经离散余弦变换得到Mel倒谱系数:<img file="FSB00000437511600012.GIF" wi="1019" he="121" />④差分参数的计算采用公式:<maths num="0001"><![CDATA[<math><mrow><mi>d</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msqrt><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>k</mi></mrow><mi>k</mi></munderover><msup><mi>i</mi><mn>2</mn></msup></msqrt></mfrac><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>k</mi></mrow><mi>k</mi></munderover><mi>i</mi><mo>·</mo><mi>C</mi><mrow><mo>(</mo><mi>n</mi><mo>+</mo><mi>i</mi><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>其中C表示一帧语音参数,k为2,这时差分参数称为当前帧的前两帧和后两帧的参数组合,由此式计算得到的差分参数为Mel倒谱系数一阶差分参数;2)子频带能量分布第n帧的整个频带的功率谱能量可以表示如下:<img file="FSB00000437511600014.GIF" wi="381" he="81" />,其中F(ω)是快速傅立叶变换函数,ω<sub>0</sub>是信号采样频率的一半,每个子频带的子频带能量分布用如下公式表示:<img file="FSB00000437511600015.GIF" wi="556" he="119" />;其中,H<sub>j</sub>、L<sub>j</sub>分别为第j个子频带的最高频率和最低频率;步骤三、音频信号分类:选用K近邻分类方法对音频信号进行分类;读取训练样本特征向量矩阵,分别计算上一步得到的特征向量与各类别训练样本特征向量的距离,取b个近邻投票分类,其中b为奇数,得出音频识别结果;步骤四、信号去噪:采用二次分类对语噪识别方法进行改进,当音频信号输入时,为输入设置输入单位,当两次都分类为噪音时去除重叠的部分;输入单位为10帧,每次前进5帧。 |