发明名称 基于多频带信号重构的生态声音识别方法
摘要 本发明涉及一种基于多频带信号重构的生态声音识别方法,首先,使用OMP稀疏分解作第一阶段重构,保留前景声音的主体结构;其次,将前阶段分解的剩余分量按频带划分,根据前景声音和背景噪声的频率分布,对重构信号进行自适应补偿,完成第二阶段重构;最后,根据支撑集原子时频信息和频域信息提取复合抗噪特征,使用深信度网对生态声音在不同环境和信噪比情境下进行分类识别。本发明采用二次重构不仅能抑制噪声,并且提高了对前景声音的重构精度,在自然环境下具有较好的噪声鲁棒性。
申请公布号 CN103474066B 申请公布日期 2016.01.06
申请号 CN201310472342.9 申请日期 2013.10.11
申请人 福州大学 发明人 李应;欧阳桢
分类号 G10L15/20(2006.01)I;G10L15/08(2006.01)I;G10L15/02(2006.01)I 主分类号 G10L15/20(2006.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 一种基于多频带信号重构的生态声音识别方法,其特征在于,包括以下步骤:S01:分别对纯净声音和测试带噪声音进行OMP稀疏分解,对应输出纯净声音和测试带噪声音的重构信号和OMP特征;S02:对纯净声音提取包括OMP特征在内的复合特征并进行DBN模型训练;S03:提取测试带噪声音进行OMP稀疏分解后的残余信号的功率谱并进行多频带补偿;S04:提取测试带噪声音进行OMP稀疏分解后的重构信号的功率谱,并结合所述步骤S03中进行多频带补偿后的残余信号的功率谱进行二次重构;S05:对所述步骤S04中二次重构后的信号进行提取包括OMP特征在内的复合特征;S06:对所述步骤S02中进行DBN模型训练后提取的复合特征和所述步骤S05中提取的包括OMP特征在内的复合特征进行DBN模型分类,输出测试带噪声音所属的生态声音类别;假设待分解带噪声音信号f,长度为N,进行稀疏分解之前,首先构造过完备原子字典D=(g<sub>γ</sub>)<sub>γ∈Γ</sub>,时频原子g<sub>γ</sub>是Gabor原子,由参数组γ=(s,u,v,w)定义,平移因子u定义一个原子g<sub>γ</sub>的中心位置,伸缩因子s,频率因子v和相位因子w定义其波形,其离散化时频参数γ=(s,u,v,w)=(a<sup>j</sup>,pa<sup>j</sup>Δu,ka<sup>‑j</sup>Δv,iΔw),其中,0<j≤log<sub>2</sub>N,0≤p≤N2<sup>‑j+1</sup>,0≤k<2<sup>j+1</sup>,0≤i≤12,a=2,Δu=1/2,Δv=π,Δw=π/6;所述步骤S01具体步骤包括:S011:初始化信号残差R<sub>0</sub>y'=f,迭代次数k=1,最大迭代次数L;S012:从过完备原子字典D中选出第k次迭代与信号残差最为相关的原子g<sub>γk</sub>,<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mo>|</mo><mo>&lt;</mo><msub><mi>R</mi><mi>k</mi></msub><msup><mi>y</mi><mo>&prime;</mo></msup><mo>,</mo><msub><mi>g</mi><mrow><mi>&gamma;</mi><mi>k</mi></mrow></msub><mo>&gt;</mo><mo>|</mo><mo>&GreaterEqual;</mo><mi>&alpha;</mi><munder><mrow><mi>s</mi><mi>u</mi><mi>p</mi></mrow><mrow><mi>&gamma;</mi><mo>&Element;</mo><mi>&Gamma;</mi></mrow></munder><mo>|</mo><mo>&lt;</mo><msub><mi>R</mi><mi>k</mi></msub><msup><mi>y</mi><mo>&prime;</mo></msup><mo>,</mo><msub><mi>g</mi><mi>&gamma;</mi></msub><mo>&gt;</mo><mo>|</mo><mo>,</mo></mrow>]]></math><img file="FDA0000820118580000011.GIF" wi="715" he="119" /></maths>0<α≤1;S013:判断||R<sub>k</sub>y'||<ε,ε>0是否成立,ε为设定的残余信号阈值,若||R<sub>k</sub>y'||<ε成立,则转步骤S016结束分解,若不成立,继续分解;S014:利用Gram‑Schmidt方法将g<sub>γk</sub>关于已选原子集g<sub>γp</sub>,0<p≤k正交化得到投影P<sub>k</sub>并分别计算新的近似重构信号y'=P<sub>k</sub>f和残差R<sub>k+1</sub>y'=f‑y';S015:若还未达到最大迭代次数,设置k=k+1,返回步骤S012继续迭代,否则转步骤S016;S016:通过逐次分解得到一系列原子,输出第L次近似原子展开式<img file="FDA0000820118580000021.GIF" wi="402" he="147" />其中Pn为用于重构信号的原子支撑集进行加权组合的展开系数;所述提取包括OMP特征在内的复合特征具体方法为:提取包括OMP特征、MFCCs特征和基音特征的复合特征;其中,提取OMP特征的方法是利用OMP分解每一帧声音信号,获得表示该帧信号的支撑集前L个原子时频参数组中伸缩因子s和频率因子v的均值和标准差,构成4维OMP特征,<img file="FDA0000820118580000022.GIF" wi="607" he="142" />其中,λ为信号的帧索引,i为表示该帧信号的原子索引,L为原子数,σ为伸缩因子s和频率因子v的标准差;选取MFCCs补充OMP特征使用,首先采用24阶Mel滤波器组,对重构信号作离散傅里叶变换后得到12维MFCCs静态特征,再加上对数能量作为其第13维特征;选取PITCH补充OMP特征使用,采用循环平均幅度差函数法获得每帧对应的1维PITCH特征;所述DBN模型训练包括两个步骤,第一步采用无监督逐层贪心的策略进行预训练,将已标记好的生态声音特征初始化DBN最底层的可见层节点的状态值,这样使得具体特征逐渐抽象化;第二步使用正确标注信息有监督的训练BP网络,并将修正信息自顶向下的传播至每一层RBM进行微调。
地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区