发明名称 一种增强声环境中目标语音信号拾取的信号处理方法
摘要 本发明涉及一种增强声环境中目标语音信号拾取的信号处理方法。(1)通过实验获取<i>ESN</i>网络的参数,建立相应的音源模型;(2)将模型用于两种场合:当模型的输出为期望的某目标语音信号,输入为该目标语音源的声环境反射声信号和目标语音信号的混合时,模型可用于现场扩声的回声消除;当模型的输出为期望的某目标语音信号,输入为其它特定语音源的声环境反射声信号和目标语音信号的混合时,模型可用于两个特定人间语音通信的回声消除;(3)模型在实际声环境中给目标语音人使用时,拾音的位置发生变化,也能抑制训练所指的音源信号的反射信号,而输出相应增强的目标语音信号。本发明克服因拾音位置移动,而造成语音信号质量受到的影响。
申请公布号 CN104157293B 申请公布日期 2017.04.05
申请号 CN201410427254.1 申请日期 2014.08.28
申请人 福建师范大学福清分校 发明人 陈国钦
分类号 G10L21/02(2013.01)I 主分类号 G10L21/02(2013.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 一种增强声环境中目标语音信号拾取的信号处理方法,其特征在于:包括以下步骤:步骤1:确定建立的模型类型:包括第一音源模型和第二音源模型,所述第一音源模型为抑制目标语音本身在声环境中产生的的反射声信号而相应增强目标语音信号;所述第二音源模型为抑制另一特定人语音在声环境中产生的反射声信号而相应增强目标语音信号;步骤2:模型的训练数据源分为两种获取准备:当准备建立第一音源模型时,需获取目标语音信号S<sub>1</sub>(n)的数据采样点;当准备建立第二音源模型时,需获取特定人语音信号m(n)和目标语音信号S<sub>1</sub>(n)的数据采样点;步骤3:获取训练模型用的环境反射声信号:首先,从电声系统对室内声环境输入激励信号,获取室内声环境的脉冲响应信号,并转换成数字信号y(n);其次,设定阶数p,利用基于自相关的线性预测算法获取全极点滤波器系数,该全极点滤波器用于模拟声环境中的声信道传输特性;再而,以准备抑制的反射声所对应的音源信号m(n)或S<sub>1</sub>(n)经过全极点滤波器获得相应的环境反射声信号S<sub>2</sub>(n);步骤4:ESN网络参数的确定:ESN网络的方程为:X(i+1)=f(WX(i)+W<sub>in</sub>U(i)+W<sub>back</sub>Y(i))<maths num="0001"><math><![CDATA[<mrow><mi>Y</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>f</mi><mrow><mi>o</mi><mi>u</mi><mi>t</mi></mrow></msub><mrow><mo>(</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>u</mi><mi>t</mi></mrow></msub><mo>&lsqb;</mo><mi>X</mi><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><mi>U</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo><mi>Y</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&rsqb;</mo><mo>+</mo><msubsup><mi>W</mi><mrow><mi>b</mi><mi>i</mi><mi>a</mi><mi>s</mi></mrow><mrow><mi>o</mi><mi>u</mi><mi>t</mi></mrow></msubsup><mo>)</mo></mrow>]]></math><img file="FDA0001114339120000011.GIF" wi="950" he="63" /></maths>其中,f表示内部神经元激活函数,通常取双曲正切函数,f<sub>out</sub>表示输出函数,典型情况下取恒等函数,X(i)为i时刻储备池的状态变量,U(i)为i时刻系统输入向量,Y(i)是ESN网络i时刻的输出;W为随机产生并且稀疏连接的高维方阵,储备池一经产生,其连接权值保持不变;W<sub>in</sub>和W分别为ESN网络的输入权值矩阵和输出权值向量;W<sub>back</sub>为输出对状态变量连接权值向量;<img file="FDA0001114339120000012.GIF" wi="93" he="62" />表示输出的偏置项或代表噪声;W<sub>in</sub>和W<sub>back</sub>随机产生而且保持不变,唯一需要调整的是输出权值W<sub>out</sub>;为使麦克风取一定长度的信号帧输入模型后,能够处理输出相应长度的目标语音帧,上述三个随机连接权值向量的取值如下:W<sub>in</sub>=a×(2×rand(N,1)‑1),即N×1随机矩阵,取值在(‑a,a)之间;W<sub>back</sub>=b×rand(N,1),即N×1随机矩阵,取值在(0,b)之间;W=c×sprand(N,N,p),即N×N,稀疏连接p的正态分布随机矩阵,取值(0,c)之间;其中,N值越小,建立状态的时间相对越短,提高模型运算的实时性,而N值越大模型精确性越高,但可能使泛化能力下降;a、b、c取值为:①a决定输入储备池的尺度,a≥1;②0&lt;b&lt;1;③0&lt;c&lt;1;N≥300,p=0.01‑0.05;步骤5:以U(n)=S<sub>1</sub>(n)+S<sub>2</sub>(n)作为ESN网络输入,D=S<sub>1</sub>(n)作为目标期望,对ESN网络进行训练,得到抑制特定音源反射声而相应增强目标语音信号的模型;i时刻,储备池的状态变量X的状态方程:X(i)=tanh(W<sub>in</sub>U(i)+WX(i‑1)+W<sub>back</sub>D(i‑1));对于给定非线性系统输入输出对(U(n),D(n);n=1,2,3,...),利用ESN网络辨识该系统的过程为:首先,初始化储备池中的权值W和W<sub>in</sub>;其次,输入U(n)激励系统,求得ESN网络的各个时刻状态响应;储备池中的状态变量与期望输出之间是线性关系,因此ESN网络的训练过程比较简单,而且解的过程不会出现传统神经网络常有的多个局部最小、收敛速度慢的缺点;输出权值W<sub>out</sub>的确定采用基本的线性回归算法:W<sub>out</sub>=(X<sup>T</sup>X)<sup>‑1</sup>X<sup>T</sup>D。
地址 350300 福建省福州市福清市龙江街道校园新村1号