发明名称 一种增强声环境中目标语音信号拾取的信号处理方法
摘要 本发明涉及一种增强声环境中目标语音信号拾取的信号处理方法。(1)通过实验获取<i>ESN</i>网络的参数,建立相应的音源模型;(2)将模型用于两种场合:当模型的输出为期望的某目标语音信号,输入为该目标语音源的声环境反射声信号和目标语音信号的混合时,模型可用于现场扩声的回声消除;当模型的输出为期望的某目标语音信号,输入为其它特定语音源的声环境反射声信号和目标语音信号的混合时,模型可用于两个特定人间语音通信的回声消除;(3)模型在实际声环境中给目标语音人使用时,拾音的位置发生变化,也能抑制训练所指的音源信号的反射信号,而输出相应增强的目标语音信号。本发明克服因拾音位置移动,而造成语音信号质量受到的影响。
申请公布号 CN104157293A 申请公布日期 2014.11.19
申请号 CN201410427254.1 申请日期 2014.08.28
申请人 福建师范大学福清分校 发明人 陈国钦
分类号 G10L21/02(2013.01)I 主分类号 G10L21/02(2013.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 一种增强声环境中目标语音信号拾取的信号处理方法,其特征在于:包括以下步骤:步骤1:确定建立的模型类型:包括第一音源模型和第二音源模型,所述第一音源模型为抑制目标语音本身在声环境中产生的的反射声信号而相应增强目标语音信号;所述第二音源模型为抑制另一特定人语音在声环境中产生的反射声信号而相应增强目标语音信号;步骤2:模型的训练数据源分为两种获取准备:当准备建立第一音源模型时,需获取目标语音信号<img file="2014104272541100001dest_path_image001.GIF" wi="41" he="23" />的数据采样点;当准备建立第二音源模型时,需获取特定人语音信号<img file="2014104272541100001dest_path_image002.GIF" wi="36" he="21" />和目标语音信号<img file="599255dest_path_image001.GIF" wi="41" he="23" />的数据采样点;步骤3:获取训练模型用的环境反射声信号:首先,从电声系统对室内声环境输入激励信号,获取室内声环境的脉冲响应信号,并转换成数字信号<img file="2014104272541100001dest_path_image003.GIF" wi="33" he="21" />;其次,设定阶数<img file="2014104272541100001dest_path_image004.GIF" wi="17" he="18" />,利用基于自相关的线性预测算法获取全极点滤波器系数,该全极点滤波器用于模拟声环境中的声信道传输特性;再而,以准备抑制的反射声所对应的音源信号<img file="2014104272541100001dest_path_image005.GIF" wi="36" he="21" />或<img file="745155dest_path_image001.GIF" wi="41" he="23" />经过全极点滤波器获得相应的环境反射声信号<img file="2014104272541100001dest_path_image006.GIF" wi="42" he="23" />;步骤4:<i>ESN</i>网络参数的确定:<i>ESN</i>网络的方程为:<img file="2014104272541100001dest_path_image007.GIF" wi="270" he="24" /><img file="2014104272541100001dest_path_image008.GIF" wi="306" he="26" />其中,<img file="26357dest_path_image009.GIF" wi="17" he="21" />表示内部神经元激活函数,通常取双曲正切函数,<img file="2014104272541100001dest_path_image010.GIF" wi="27" he="24" />表示输出函数,典型情况下取恒等函数,<img file="172299dest_path_image011.GIF" wi="35" he="21" />为<img file="2014104272541100001dest_path_image012.GIF" wi="9" he="18" />时刻储备池的状态变量,<img file="612770dest_path_image013.GIF" wi="33" he="21" />为<img file="310598dest_path_image012.GIF" wi="9" he="18" />时刻系统输入向量,<img file="2014104272541100001dest_path_image014.GIF" wi="30" he="21" />是<img file="328364dest_path_image015.GIF" wi="36" he="18" />网络<img file="402630dest_path_image012.GIF" wi="9" he="18" />时刻的输出;<img file="2014104272541100001dest_path_image016.GIF" wi="18" he="18" />为随机产生并且稀疏连接的高维方阵,储备池一经产生,其连接权值保持不变;<img file="697608dest_path_image017.GIF" wi="24" he="24" />和<img file="566338dest_path_image016.GIF" wi="18" he="18" />分别为<img file="2014104272541100001dest_path_image018.GIF" wi="36" he="18" />网络的输入权值矩阵和输出权值向量;<img file="822132dest_path_image019.GIF" wi="36" he="24" />为输出对状态变量连接权值向量;<img file="dest_path_image020.GIF" wi="33" he="26" />表示输出的偏置项或代表噪声;<img file="309876dest_path_image017.GIF" wi="24" he="24" />和<img file="583994dest_path_image019.GIF" wi="36" he="24" />随机产生而且保持不变,唯一需要调整的是输出权值<img file="889204dest_path_image021.GIF" wi="30" he="24" />;为使麦克风取一定长度的信号帧输入模型后,能够处理输出相应长度的目标语音帧,上述三个随机连接权值向量的取值如下:<img file="dest_path_image022.GIF" wi="185" he="23" />,即<img file="881562dest_path_image023.GIF" wi="101" he="21" />,取值在(<img file="dest_path_image024.GIF" wi="26" he="15" />,<img file="930856dest_path_image025.GIF" wi="14" he="15" />)之间;<img file="dest_path_image026.GIF" wi="141" he="24" />,即<img file="325059dest_path_image023.GIF" wi="101" he="21" />,取值在(0,<img file="410958dest_path_image027.GIF" wi="14" he="18" />)之间;<img file="dest_path_image028.GIF" wi="162" he="21" />, 即<img file="890612dest_path_image029.GIF" wi="276" he="23" />,取值(0,<img file="dest_path_image030.GIF" wi="12" he="15" />)之间;其中,<img file="720159dest_path_image031.GIF" wi="18" he="18" />值越小,建立状态的时间相对越短,提高模型运算的实时性,而<img file="dest_path_image032.GIF" wi="18" he="18" />值越大模型精确性越高,但可能使泛化能力下降;<img file="968869dest_path_image033.GIF" wi="60" he="18" />取值为:①<img file="491248dest_path_image025.GIF" wi="14" he="15" />决定输入储备池的尺度,<img file="dest_path_image034.GIF" wi="35" he="18" />;②<img file="dest_path_image035.GIF" wi="59" he="18" />;③<img file="dest_path_image036.GIF" wi="59" he="18" />;步骤5:以<img file="dest_path_image037.GIF" wi="138" he="23" />作为<img file="694084dest_path_image015.GIF" wi="36" he="18" />网络输入,<img file="dest_path_image038.GIF" wi="69" he="23" />作为目标期望,对<img file="327322dest_path_image018.GIF" wi="36" he="18" />网络进行训练,得到抑制特定音源反射声而相应增强目标语音信号的模型;<img file="555172dest_path_image012.GIF" wi="9" he="18" />时刻,储备池的状态变量<img file="dest_path_image039.GIF" wi="18" he="18" />的状态方程:<img file="dest_path_image040.GIF" wi="302" he="24" />;对于给定非线性系统输入输出对(<img file="dest_path_image041.GIF" wi="38" he="21" />,<img file="dest_path_image042.GIF" wi="38" he="21" />;<img file="dest_path_image043.GIF" wi="74" he="21" />),利用<img file="625283dest_path_image015.GIF" wi="36" he="18" />网络辨识该系统的过程为:首先,初始化储备池中的权值<img file="dest_path_image044.GIF" wi="18" he="18" />和<img file="665879dest_path_image017.GIF" wi="24" he="24" />;其次,输入<img file="dest_path_image045.GIF" wi="33" he="21" />激励系统,求得<img file="837229dest_path_image015.GIF" wi="36" he="18" />网络的各个时刻状态响应;储备池中的状态变量与期望输出之间是线性关系,因此<img file="60531dest_path_image015.GIF" wi="36" he="18" />网络的训练过程比较简单,而且解的过程不会出现传统神经网络常有的多个局部最小、收敛速度慢的缺点;输出权值<img file="dest_path_image046.GIF" wi="30" he="24" />的确定采用基本的线性回归算法:<img file="dest_path_image047.GIF" wi="141" he="26" />。
地址 350300 福建省福州市福清市龙江街道校园新村1号