发明名称 一种混叠音频事件分类方法
摘要 本发明公开了一种混叠音频事件分类方法,该方法在训练阶段通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ。在测试阶段,根据训练阶段得到的“作者—主题”模型θ和“主题—字”模型Φ,通过求解音频文档相对于各个混叠音频类的不确定值来进行分类。本发明提出的混叠音频事件分类方法能分类识别出音频样本中的多个音频事件,而不仅仅是其中的某个音频事件,因而有助于更好地分析音频文档的内容。目前对混叠音频事件的分类研究还很少,本发明提出的方法是对这方面研究的一个很好补充。
申请公布号 CN104269169B 申请公布日期 2017.04.12
申请号 CN201410459191.8 申请日期 2014.09.09
申请人 山东师范大学 发明人 冷严;程传福;齐广慧;徐新艳;万洪林
分类号 G10L15/08(2006.01)I;G10L25/51(2013.01)I;G10L15/06(2013.01)I 主分类号 G10L15/08(2006.01)I
代理机构 济南圣达知识产权代理有限公司 37221 代理人 张勇
主权项 一种混叠音频事件分类方法,其特征是,包括如下步骤:步骤(1):输入包含纯净音频事件的音频文档和包含混叠音频事件的音频文档;步骤(2):对步骤(1)的包含纯净音频事件的音频文档和包含混叠音频事件的音频文档分别进行分帧,并对每帧进行特征提取,特征提取得到音频特征,得到的所有帧的音频特征即为所有音频事件的训练样本;步骤(3):利用Kmeans算法对步骤(2)的所有音频事件的训练样本进行聚类,聚类得到训练样本聚类的各个簇和各个簇的中心,进而根据训练样本落入的簇的簇中心的编号得到各个音频事件训练样本的字表达;步骤(4):根据步骤(3)的各个音频事件训练样本的字表达、已知各个样本的作者、提前设定Dirichlet分布的α参数和提前设定Dirichlet分布的β参数,通过吉布斯采样方法训练得到“作者—主题”模型θ和“主题—字”模型Φ;步骤(5):输入待测试音频文档;步骤(6):对步骤(5)的测试音频文档进行分帧,并对每帧进行特征提取,提取与步骤(2)相同类型的音频特征;步骤(7):计算步骤(6)提取的音频特征与步骤(3)的训练样本聚类的各个簇的中心位置的距离,取距离最小的簇中心对应的字为测试音频样本的字表达;步骤(8):根据步骤(7)的测试音频样本的字表达,利用步骤(4)的“作者—主题”模型θ和“主题—字”模型Φ,求得测试音频文档相对于各个混叠音频类的不确定值;步骤(9):求测试音频文档相对于各个混叠音频类的最小不确定值,将最小不确定值所对应的混叠音频类作为该音频文档的分类结果。
地址 250014 山东省济南市历下区文化东路88号