发明名称 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
摘要 本发明针对生态环境中各种背景噪声下的鸟类声音识别问题,提出了一种基于新型抗噪特征提取的鸟类声音识别技术。首先,根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱。其次,使用多频带谱减法对声音功率谱进行降噪处理。接着,结合降噪的声音功率谱提取抗噪幂归一化倒谱系数(APNCC)。最后,采用支持向量机(SVM)分别对提取的APNCC,幂归一化倒谱系数(PNCC)和Mel频率倒谱系数(MFCC)对34种鸟类声音进行不同环境和信噪比情况下的对比实验。实验表明,提取的APNCC具有较好的平均识别效果及较强的噪声鲁棒性,更适用于信噪比低于30dB环境下的鸟类声音识别。
申请公布号 CN102930870B 申请公布日期 2014.04.09
申请号 CN201210368983.5 申请日期 2012.09.27
申请人 福州大学 发明人 颜鑫;李应
分类号 G10L17/26(2013.01)I;G10L17/08(2013.01)I;G10L15/20(2006.01)I 主分类号 G10L17/26(2013.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 1.一种利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于包括以下步骤:步骤S01:根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱;步骤S02:使用多频带谱减法对声音功率谱进行降噪处理;步骤S03:结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC;所述步骤S01采用以下步骤实现:步骤S011:计算带噪声音信号的平滑功率谱:对带噪声音信号的数学模型<img file="2012103689835100001DEST_PATH_IMAGE002.GIF" wi="96" he="21" />进行FFT变换后得到该噪声音信号的幅度谱<img file="DEST_PATH_IMAGE004.GIF" wi="45" he="21" />,然后通过一阶递归式<img file="DEST_PATH_IMAGE006.GIF" wi="224" he="26" />计算出该平滑功率谱,其中<img file="DEST_PATH_IMAGE008.GIF" wi="26" he="21" />为带噪的声音信号,<img file="DEST_PATH_IMAGE010.GIF" wi="26" he="21" />为纯净的声音信号,<img file="DEST_PATH_IMAGE012.GIF" wi="28" he="21" />为附带的噪声信号,<img file="DEST_PATH_IMAGE014.GIF" wi="46" he="21" />为带噪声音信号的平滑功率谱,<img file="DEST_PATH_IMAGE016.GIF" wi="14" he="18" />为帧索引,<img file="DEST_PATH_IMAGE018.GIF" wi="13" he="18" />为频率索引,<img file="DEST_PATH_IMAGE020.GIF" wi="54" he="26" />为带噪声音信号的功率谱,<img file="DEST_PATH_IMAGE022.GIF" wi="14" he="17" />为平滑常量;步骤S012:进行带噪声音信号平滑功率谱最小值追踪计算:采用非线性通过下式追踪计算带噪声音信号功率谱的最小值,<img file="DEST_PATH_IMAGE024.GIF" wi="469" he="64" />其中,<img file="DEST_PATH_IMAGE026.GIF" wi="58" he="22" />为带噪声音功率谱的局部最小值,<img file="DEST_PATH_IMAGE028.GIF" wi="16" he="21" />和<img file="DEST_PATH_IMAGE030.GIF" wi="14" he="17" />为常量;步骤S013:计算声音平滑功率与其相应局部最小值的比值:<img file="DEST_PATH_IMAGE032.GIF" wi="114" he="41" />;通过该比值与频率相关的阈值的比较,当该比值比相应阈值大时,就被当作前景声音存在的频率窗口,反之,则为噪声的频率窗口;步骤S014:根据<img file="DEST_PATH_IMAGE034.GIF" wi="262" he="45" />对前景声音是否存在进行判断,其中<img file="DEST_PATH_IMAGE036.GIF" wi="32" he="21" />为频率相关常量,可表示为:<img file="DEST_PATH_IMAGE038.GIF" wi="174" he="66" />,<img file="DEST_PATH_IMAGE040.GIF" wi="65" he="18" />,<img file="DEST_PATH_IMAGE042.GIF" wi="81" he="18" />,采样频率<img file="DEST_PATH_IMAGE044.GIF" wi="64" he="18" />;步骤S015:通过式<img file="DEST_PATH_IMAGE046.GIF" wi="226" he="25" />的一阶递归式计算前景声音存在的概率<img file="41973DEST_PATH_IMAGE014.GIF" wi="46" he="21" />,其中,<img file="DEST_PATH_IMAGE048.GIF" wi="20" he="25" />为平滑常量,取<img file="DEST_PATH_IMAGE050.GIF" wi="53" he="25" />;步骤S016:计算时-频相关的平滑因子<img file="DEST_PATH_IMAGE052.GIF" wi="176" he="22" />;其中,<img file="DEST_PATH_IMAGE054.GIF" wi="20" he="22" />为常量,取<img file="DEST_PATH_IMAGE056.GIF" wi="60" he="22" />,<img file="DEST_PATH_IMAGE058.GIF" wi="50" he="22" />的取值范围为<img file="DEST_PATH_IMAGE060.GIF" wi="98" he="22" />;步骤S017:根据所述时-频相关的平滑因子更新估计的噪声功率谱<img file="DEST_PATH_IMAGE062.GIF" wi="302" he="26" />,其中,<img file="DEST_PATH_IMAGE064.GIF" wi="48" he="21" />为估计的噪声幅度谱。
地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区