发明名称 一种基于声学事件的音频场景识别方法
摘要 本发明公开了一种基于声学事件的音频场景识别方法,具体步骤为:步骤一:对拟进行音频场景识别的音频流进行音频分割;步骤二:对每个音频场景片段中所包含的音频帧,通过声学事件模型进行分类,得到音频帧与各个声学事件类之间的概率关系;步骤三:对每个音频场景片段,综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系;步骤四:对每个音频场景片段,确定音频场景片段中包含的主要声学事件,确定音频场景片段的语义场景。本发明对主要声学事件的判断更加合理准确,进而能提高语义场景识别的准确率;本发明具有很好的推广性;本发明为视频场景识别提供很好的辅助作用,以提高视频场景识别的准确率。
申请公布号 CN103226948A 申请公布日期 2013.07.31
申请号 CN201310140633.8 申请日期 2013.04.22
申请人 山东师范大学 发明人 冷严;徐新艳
分类号 G10L15/06(2013.01)I;G10L25/48(2013.01)I 主分类号 G10L15/06(2013.01)I
代理机构 济南圣达知识产权代理有限公司 37221 代理人 张勇
主权项 一种基于声学事件的音频场景识别方法,其特征是,具体步骤为:步骤一:对拟进行音频场景识别的音频流进行音频分割,形成音频场景片段和音频帧;步骤二:对每个音频场景片段中所包含的音频帧,通过声学事件模型进行分类,得到音频帧与各个声学事件类之间的概率关系;步骤三:对每个音频场景片段,综合音频场景片段中包含的所有音频帧的信息得到音频场景片段与各个声学事件类之间的概率关系;步骤四:对每个音频场景片段,根据其与各个声学事件类之间的概率关系得到音频场景片段中包含的主要声学事件,进而推理得到音频场景片段的语义场景。
地址 250014 山东省济南市历下区文化东路88号