发明名称 一种声音信号检测和识别的方法
摘要 本发明涉及一种声音信号检测和识别的方法,公开了一种主要基于声音特征化表达、背景抑制算法、信号检出和数据融合这四个过程的声音检测和识别方法。其中声音信号特征化表达的方法是基于声音频谱能量和分布进行计算的;背景抑制算法,是根据声音的相似度加权值对声音的频域进行滤波进行计算的;信号检出是通过对能量归一化的数据与抑制后数据求差来进行计算的;最后,数据融合是通过变参数加权的方式一方面避免因分帧造成的延时效应从而保证即时性,另一方面抵消非平稳背景的干扰,从而提高鲁棒性。该声音信号检测和识别方法识别精度高,能够有效的避免背景干扰的影响,即便在极低的信噪比情况下亦可以达到满意的检测和识别结果。
申请公布号 CN102419972B 申请公布日期 2013.02.06
申请号 CN201110383102.2 申请日期 2011.11.28
申请人 西安交通大学 发明人 冯祖仁;程欣;贠光梅;高紫晨;刘振;郭文涛
分类号 G10L25/00(2013.01)I 主分类号 G10L25/00(2013.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 陆万寿
主权项 1.一种声音信号检测和识别的方法,其特征在于,包括以下步骤:步骤一,预处理过程:首先利用目标声音的特征化表达方式将目标声音制作成目标模板{Q<sub>u</sub>|u=1,2,…U},U=2<sup>N</sup>,N为小波包分解变换的层数;接着将实时获取的原始声音信号进行分帧,每一定长度的数据分成一帧,每帧之间重叠一定的长度;同时初始化计数器i为零,初始化最终检测和识别量化结果{R<sub>i</sub>|i=1,2,…LENGTH}的每个元素为零,初始化加权系数{α<sub>i</sub>|i=1,2,…M}的所有元素为零;其中LENGTH表示该待检测声音的数据长度。M表示一帧数据的长度;步骤二,帧数据的特征化:通过分帧后原始声音的特征化表达方式计算第i帧数据的特征向量{S<sub>u</sub>|u=1,2,…};步骤三,基于背景抑制的处理方式:将步骤一和步骤二得到的目标模板{Q<sub>u</sub>}和第i帧数据的特征向量{S<sub>u</sub>}通过基于背景抑制的方法进行处理,以抑制第i帧数据中的背景噪音和干扰部分,从而得到处理结果序列;步骤四,信号检出的过程:利用信号检出的方法对步骤三得到的处理结果序列进行信号检出,以进一步抑制背景噪声或干扰并同时补偿由于原始信号非平稳而造成的影响,从而得到检出结果序列<maths num="0001"><![CDATA[<math><mrow><mo>{</mo><msubsup><mi>d</mi><mi>x</mi><mi>i</mi></msubsup><mo>|</mo><mi>x</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>M</mi><mo>}</mo><mo>;</mo></mrow></math>]]></maths>步骤五,数据融合:利用数据融合的方法对检出结果序列<img file="FDA00002014018000012.GIF" wi="84" he="74" />进行加权处理,依据每一帧的数据结果和检测的即时性,从而得到一个用于判断最终结果的统一的相似度量化序列{R<sub>u</sub>|u=1,2,…};步骤六,遍历每帧数据:首先判断当前相似度量化序列{R<sub>u</sub>}中是否有元素大于某一预先设定的阈值T,如果是则输出该元素的位置;然后更新计数器<img file="FDA00002014018000021.GIF" wi="146" he="46" />并且重复上面步骤二到步骤六,直至遍历所有帧数据;通过以上的六个步骤后的算法输出结果就是从原始声音中检测和识别到的目标声音发生的位置。
地址 710049 陕西省西安市咸宁西路28号