主权项 |
基于十字形声阵列宽带波束形成的声识别方法,其特征在于包括如下步骤:步骤1、将十字形声阵列对准所需方向采集4通道声音信号;步骤2、对采集到的4通道声音信号进行预处理,包括分帧、加窗;步骤3、对预处理后的每一帧数据进行离散傅里叶变换,离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取;步骤4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成;步骤5、将波束形成后的频域信号进行逆离散傅里叶变换;步骤6、对应分帧时的原则进行帧重叠合成,输出信号;步骤7、对输出信号进行特征提取和分类学习、识别;所述的步骤1:将十字形声阵列的其中一个通道对准声源方向,作为LSMI‑MVDR宽带波束形成的方向,采集4通道声音信号,采样频率记为f<sub>s</sub>;所述的步骤2:预处理包括数据的分帧、加窗,对声音信号进行分帧,声音信号每帧选取1024个采样点,帧移为512个采样点;然后采用汉明窗对声音信号进行加窗;所述的步骤3:通过FFT来实现信号的离散傅里叶变换,其中,每一帧信号经过FFT后频率分辨率为<img file="FDA0001013912740000011.GIF" wi="121" he="111" />第p个通道的第m帧信号经过FFT后的结果为:<maths num="0001"><math><![CDATA[<mrow><msubsup><mi>X</mi><mi>p</mi><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover><msubsup><mi>x</mi><mi>p</mi><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>j</mi><mfrac><mrow><mn>2</mn><mi>π</mi><mi>i</mi><mi>k</mi></mrow><mi>L</mi></mfrac><mo>)</mo></mrow><mo>,</mo><mi>k</mi><mo>=</mo><mn>0</mn><mo>,</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>L</mi><mo>-</mo><mn>1</mn></mrow>]]></math><img file="FDA0001013912740000012.GIF" wi="1378" he="208" /></maths>其中,L=1024为每一帧的长度,<img file="FDA0001013912740000013.GIF" wi="188" he="95" />为第p个通道第m帧的信号,k为是各个频带的编号,其对应的中心频率为:<maths num="0002"><math><![CDATA[<mrow><msub><mi>f</mi><mi>k</mi></msub><mo>=</mo><mfrac><msub><mi>f</mi><mi>s</mi></msub><mi>L</mi></mfrac><mo>×</mo><mi>k</mi></mrow>]]></math><img file="FDA0001013912740000021.GIF" wi="286" he="143" /></maths>然后,根据声音信号的频率特性,选取相应的频率带,比如信号所在的频率带为[f<sub>1</sub>,f<sub>2</sub>],则我们提取FFT后的k所在的区间为<img file="FDA0001013912740000022.GIF" wi="227" he="121" /> |