发明名称 基于形声阵列宽带波束形成的声识别方法
摘要 本发明公开了一种基于形声阵列宽带波束形成的声识别方法。本发明包括如下步骤:1、将形声阵列对准所需方向采集声音信号;2、对采集到声音信号进行预处理;3、对预处理后的每一帧数据进行离散傅里叶变换,然后根据需要的频带进行频带提取;4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成。5、将波束形成后的频域信号进行逆离散傅里叶变换;6、对应分帧时的原则进行帧重叠合成,输出信号;7、对输出信号进行特征提取和分类学、识别。本发明能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号,将其用于声音识别系统的信号处理阶段,能够有效的提高识别系统对识别对象的识别率和可靠性。
申请公布号 CN106023996A 申请公布日期 2016.10.12
申请号 CN201610409905.3 申请日期 2016.06.12
申请人 杭州电子科技大学 发明人 王天磊;王建中;曹九稳;赖晓平
分类号 G10L17/20(2013.01)I;G01H17/00(2006.01)I 主分类号 G10L17/20(2013.01)I
代理机构 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人 杜军
主权项 基于十字形声阵列宽带波束形成的声识别方法,其特征在于包括如下步骤:步骤1、将十字形声阵列对准所需方向采集4通道声音信号;步骤2、对采集到的4通道声音信号进行预处理,包括分帧、加窗;步骤3、对预处理后的每一帧数据进行离散傅里叶变换,离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取;步骤4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成;步骤5、将波束形成后的频域信号进行逆离散傅里叶变换;步骤6、对应分帧时的原则进行帧重叠合成,输出信号;步骤7、对输出信号进行特征提取和分类学习、识别;所述的步骤1:将十字形声阵列的其中一个通道对准声源方向,作为LSMI‑MVDR宽带波束形成的方向,采集4通道声音信号,采样频率记为f<sub>s</sub>;所述的步骤2:预处理包括数据的分帧、加窗,对声音信号进行分帧,声音信号每帧选取1024个采样点,帧移为512个采样点;然后采用汉明窗对声音信号进行加窗;所述的步骤3:通过FFT来实现信号的离散傅里叶变换,其中,每一帧信号经过FFT后频率分辨率为<img file="FDA0001013912740000011.GIF" wi="121" he="111" />第p个通道的第m帧信号经过FFT后的结果为:<maths num="0001"><math><![CDATA[<mrow><msubsup><mi>X</mi><mi>p</mi><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover><msubsup><mi>x</mi><mi>p</mi><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>j</mi><mfrac><mrow><mn>2</mn><mi>&pi;</mi><mi>i</mi><mi>k</mi></mrow><mi>L</mi></mfrac><mo>)</mo></mrow><mo>,</mo><mi>k</mi><mo>=</mo><mn>0</mn><mo>,</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>L</mi><mo>-</mo><mn>1</mn></mrow>]]></math><img file="FDA0001013912740000012.GIF" wi="1378" he="208" /></maths>其中,L=1024为每一帧的长度,<img file="FDA0001013912740000013.GIF" wi="188" he="95" />为第p个通道第m帧的信号,k为是各个频带的编号,其对应的中心频率为:<maths num="0002"><math><![CDATA[<mrow><msub><mi>f</mi><mi>k</mi></msub><mo>=</mo><mfrac><msub><mi>f</mi><mi>s</mi></msub><mi>L</mi></mfrac><mo>&times;</mo><mi>k</mi></mrow>]]></math><img file="FDA0001013912740000021.GIF" wi="286" he="143" /></maths>然后,根据声音信号的频率特性,选取相应的频率带,比如信号所在的频率带为[f<sub>1</sub>,f<sub>2</sub>],则我们提取FFT后的k所在的区间为<img file="FDA0001013912740000022.GIF" wi="227" he="121" />
地址 310027 浙江省杭州市下沙高教园区2号大街