发明名称 一种基于背景噪声最小统计量特征的声音环境识别方法
摘要 一种基于背景噪声最小统计量特征的声音环境识别方法,涉及声音场景的分类识别技术,为了解决在声音环境识别中由于声音环境结构复杂、易混淆、声学特征不确定和维度高所造成的提取有效特征、建立统计模型困难,导致识别性能差的问题。本发明提出了噪声最小统计量特征的提取、建模以及识别方法:在特征提取与建模阶段,分别对声音信号的能量谱进行频域平滑和时域平滑并追踪其最小统计量,将最小统计量转换到对数域进行标准化和降维处理,从而提取出声音环境的噪声最小统计量特征,并采用高斯混合模型对噪声最小统计量建模;在识别阶段,对输入声音进行特征提取,计算所提取出的最小统计量特征在每个模型下的似然值,并依据此似然值进行类别决策。
申请公布号 CN103544953B 申请公布日期 2016.01.20
申请号 CN201310507384.1 申请日期 2013.10.24
申请人 哈尔滨师范大学 发明人 邓世文
分类号 G10L15/20(2006.01)I;G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/08(2006.01)I 主分类号 G10L15/20(2006.01)I
代理机构 哈尔滨市松花江专利商标事务所 23109 代理人 杨立超
主权项 一种基于背景噪声最小统计量特征的声音环境识别方法,其特征在于它由以下步骤实现:步骤一、将采集的声音信号进行短时傅里叶变换得到信号的能量谱,而后对能量谱系数分别进行频域平滑和时域平滑,对平滑后的结果进行最小统计量追踪,提取出最小统计量并将其映射到对数域后进行标准化;步骤二、将在训练数据上使用步骤一所得到的标准化后的最小统计量进行特征值分解,提取前K个重要基向量U<sub>K</sub>;将标准化后的最小统计量投影到K个重要基向量U<sub>K</sub>上得到降维后的特征,完成特征提取过程;将重要基向量U<sub>K</sub>进行存储以用于声音环境识别步骤四中;步骤三、依据步骤二中所得到的训练数据降维后的最小统计量特征,采用高斯混合模型分别对每类环境声音进行建模,得到高斯混合模型(GMM)并将其进行存储以用于声音环境识别步骤四中;步骤四、利用步骤一对所采集的声音信号提取标准化后的最小噪声统计量特征,利用步骤二所得到的重要基向量U<sub>K</sub>对其进行降维,完成对采集声音信号的特征提取;再利用步骤三所得到的高斯混合模型(GMM)进行声音环境识别。
地址 150080 黑龙江省哈尔滨市南岗区和兴路50号