发明名称 复杂环境下基于自适应能量检测的鸟鸣识别方法
摘要 本发明涉及一种复杂环境下基于自适应能量检测的鸟鸣识别方法,其特征在于包括以下步骤:步骤1,根据鸟叫声频率分布情况将声音分成三个频带;步骤2,对包含有噪声的鸟鸣声音信号用基于噪声功率谱估计和前景声音存在概率的自适应能量检测方法检测并筛选出有用鸟鸣信号;步骤3,根据Mel尺度的分布,对有用鸟鸣信号提取Mel尺度的小波包分解子带倒谱系数(WPSCC)特征;步骤4,用支持向量机(SVM)分类器分别对提取的Mel尺度的小波包分解子带倒谱系数(WPSCC)和麦尔频率倒谱系数(MFCC)特征进行建模分类识别。通过该方法提取的WPSCC特征具有较好的抗噪功能,且经过自适应能量检测后的识别性能更佳,更适用于复杂环境下的鸟鸣识别,对复杂环境下含噪鸟鸣声音具有较好的分类识别效果。
申请公布号 CN103489446B 申请公布日期 2016.01.06
申请号 CN201310470092.5 申请日期 2013.10.10
申请人 福州大学 发明人 李应;张小霞
分类号 G10L17/26(2013.01)I;G10L17/02(2013.01)I 主分类号 G10L17/26(2013.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 一种复杂环境下基于自适应能量检测的鸟鸣识别方法,其特征在于包括以下步骤:步骤1,根据鸟叫声频率分布情况将声音分成三个频带;步骤2,对包含有噪声的鸟鸣声音信号用基于噪声功率谱估计和前景声音存在概率的自适应能量检测方法检测并筛选出有用鸟鸣信号;步骤3,根据Mel尺度的分布,对有用鸟鸣信号提取Mel尺度的小波包分解子带倒谱系数WPSCC特征;步骤4,用支持向量机(SVM)分类器分别对提取的Mel尺度的小波包分解子带倒谱系数WPSCC和麦尔频率倒谱系数(MFCC)特征进行建模分类识别;其中,所述步骤1中,将声音信号的功率谱频率分成三个无重叠的线性频带,其定义如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>i</mi><mo>=</mo><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><mn>1</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>F</mi><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow><mo>&le;</mo><mn>1</mn><mi>k</mi><mi>H</mi><mi>z</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>2</mn><mo>,</mo></mrow></mtd><mtd><mrow><mn>1</mn><mi>k</mi><mi>H</mi><mi>z</mi><mo>&lt;</mo><mi>F</mi><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow><mo>&le;</mo><mn>0.5</mn><mi>F</mi><mi>s</mi><mo>-</mo><mn>2.5</mn><mi>k</mi><mi>H</mi><mi>z</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>3</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>F</mi><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow><mo>&gt;</mo><mn>0.5</mn><mi>F</mi><mi>s</mi><mo>-</mo><mn>2.5</mn><mi>k</mi><mi>H</mi><mi>z</mi></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000746024010000011.GIF" wi="1076" he="171" /></maths>其中,i是频带索引,F(f)代表第f帧的频率,Fs代表采样率,数字3是根据实际试验设定的;其中,所述步骤2中,对包含有噪声的鸟鸣声音信号用基于噪声功率谱估计,以推出自适应能量检测判决所用的估计的噪声方差;具体实现步骤如下:(1)计算带噪声音的平滑功率谱;假设观察声音信号是Y(n)由纯净前景声音信号S(n)和加性背景噪声W(n)两部分构成,且其经过分帧、加窗、傅里叶变换后得到短时幅度谱Y(f,k):<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>Y</mi><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>Y</mi><mrow><mo>(</mo><mi>n</mi><mo>+</mo><mi>f</mi><mi>M</mi><mo>)</mo></mrow><mi>h</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><msup><msup><mi>e</mi><mrow><mo>-</mo><mi>j</mi><mn>2</mn></mrow></msup><mrow><mi>&pi;</mi><mi>k</mi><mi>n</mi><mo>/</mo><mi>N</mi></mrow></msup><mtext>---</mtext><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000746024010000012.GIF" wi="1039" he="91" /></maths>其中,f是帧索引,k是频率索引,n是帧内的采样点索引,N是帧长,M是帧重叠数也即帧移,h(n)是汉明窗;计算出带噪声音信号的平滑功率谱C(f,k):C(f,k)=ηC(f‑1,k)+(1‑η)|Y(f,k)|<sup>2</sup>   (13)其中,|Y(f,k)|<sup>2</sup>是带噪声音信号的功率谱,η是平滑常量因子;(2)计算带噪声音平滑功率谱的局部最小值,采用双向路径搜索方法包括后向搜索和前向搜索,来对平滑功率谱的局部最小值C<sub>min</sub>(f,k)进行追踪:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>C</mi><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow></msub><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mi>m</mi><mi>a</mi><mi>x</mi><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><msub><mtext>C</mtext><mrow><mi>min</mi><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mi>min</mi><mo>{</mo><mi>C</mi><mrow><mo>(</mo><msup><mi>f</mi><mo>&prime;</mo></msup><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>}</mo><mo>,</mo><mi>f</mi><mo>-</mo><mi>Z</mi><mo>+</mo><mn>1</mn><mo>&le;</mo><msup><mi>f</mi><mo>&prime;</mo></msup><mo>&le;</mo><mi>f</mi></mrow></mtd></mtr><mtr><mtd><mrow><msub><mtext>C</mtext><mrow><mi>min</mi><mn>2</mn></mrow></msub><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mi>min</mi><mo>{</mo><mi>C</mi><mrow><mo>(</mo><msup><mi>f</mi><mo>&prime;</mo></msup><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>}</mo><mo>,</mo><mi>f</mi><mo>&le;</mo><msup><mi>f</mi><mo>&prime;</mo></msup><mo>&le;</mo><mi>f</mi><mo>+</mo><mi>Z</mi><mo>-</mo><mn>1</mn></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000746024010000021.GIF" wi="1272" he="152" /></maths>其中,C<sub>min1</sub>(f,k)和C<sub>min2</sub>(f,k)分别代表后向搜索和前向搜素的功率谱最小值,Z是后向或前向搜索的帧数,C<sub>min</sub>(f,k)取C<sub>min1</sub>(f,k)和C<sub>min2</sub>(f,k)之中更大的那个值;(3)计算前景声音的存在概率,首先用公式(15)来决策前景声音是否存在;<img file="FDA0000746024010000022.GIF" wi="1226" he="105" />其中,δ(k)是频率相关的判决系数,其值是根据实际实验来确定的:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>&delta;</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><mn>1.5</mn><mo>,</mo></mrow></mtd><mtd><mrow><mn>1</mn><mo>&le;</mo><mi>k</mi><mo>&le;</mo><mi>L</mi><mi>F</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>2</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>L</mi><mi>F</mi><mo>&lt;</mo><mi>k</mi><mo>&le;</mo><mi>M</mi><mi>F</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>5</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>M</mi><mi>F</mi><mo>&lt;</mo><mi>k</mi><mo>&le;</mo><mn>0.5</mn><mi>F</mi><mi>s</mi></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>16</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000746024010000023.GIF" wi="1187" he="158" /></maths>其中,LF、MF、Fs分别表示低频、中频和采样率;通过计算公式(15)和(16),前景声音的存在概率P(f,k),进而可以由公式(17)的一阶递归式进行更新;P(f,k)=α<sub>p</sub>P(f‑1,k)+(1‑α<sub>p</sub>)I(f,k)   (17)其中,a<sub>p</sub>是平滑常量;(4)计算时‑频相关的平滑因子;结合前景声音的存在概率,用公式(18)来定义时‑频相关的平滑因子α<sub>s</sub>(f,k);α<sub>s</sub>(f,k)=α<sub>d</sub>+(1‑α<sub>d</sub>)P(f,k)   (18)其中,α<sub>d</sub>为常量平滑因子,α<sub>s</sub>(f,k)的取值范围为α<sub>d</sub>≤α<sub>s</sub>(f,k)≤1;(5)更新估计的噪声功率谱,基于得到的时‑频相关平滑因子α<sub>s</sub>(f,k),用公式(19)来进行近似背景噪声功率谱<img file="FDA0000746024010000027.GIF" wi="107" he="48" />的估计;<img file="FDA0000746024010000024.GIF" wi="1280" he="124" />其中,C<sub>v</sub>(f,k)=C<sub>min1</sub>(f,k)/C<sub>min2</sub>(f,k)是用来衡量噪声功率谱改变幅度的参数,c是一个决策常量;最后,为了在噪声抑制和声音失真之间寻求平衡,将上述近似估计的噪声功率谱除以一个补偿因子β来得到最后估计出来的噪声功率谱ω(f,k):<img file="FDA0000746024010000028.GIF" wi="822" he="66" />其中,设置β=1.4;用上述双向路径搜索最小值方法估计出噪声功率谱后,由公式(21)推导出用于能量检测的估计噪声方差<img file="FDA0000746024010000025.GIF" wi="72" he="68" /><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msubsup><mover><mi>&sigma;</mi><mo>^</mo></mover><mi>w</mi><mn>2</mn></msubsup><mo>=</mo><munder><mo>&Sigma;</mo><mi>f</mi></munder><munder><mo>&Sigma;</mo><mi>k</mi></munder><mi>&omega;</mi><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>21</mn><mo>)</mo></mrow><mo>.</mo></mrow>]]></math><img file="FDA0000746024010000026.GIF" wi="1037" he="94" /></maths>
地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区