发明名称 一种分析和提取设定场景的音频数据的方法
摘要 一种分析和提取设定场景的音频数据的方法,操作步骤如下:(1)利用隐马尔科夫模型对音频文件中的音频数据进行基本音频事件的检测,得到基本音频事件序列,获取该音频文件的低层语义分析结果;(2)分割该音频文件的基本音频事件序列,获得多个音频场景片断;(3)采用基于机器学和逻辑推理的两者优点相互结合的高层语义提取方法:先用训练方式提取基本音频事件在某特定语义场景中的权重值,再根据逻辑推理规则修正该权重值后,分析多个音频场景片断,获取该音频文件的高层语义分析结果。该方法能定位和标注音频数据中的特定音频场景,便于用户理解音频文件内容,有利于对音频文件进行语义提取、语义标注,基于内容的分类与检索等按音频内容的多种操作功能。
申请公布号 CN101477798B 申请公布日期 2011.01.05
申请号 CN200910077312.1 申请日期 2009.02.17
申请人 北京邮电大学 发明人 李祺;马华东
分类号 G06F17/30(2006.01)I;G10L15/08(2006.01)I;G10L15/14(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 夏宪富
主权项 1.一种分析和提取设定场景的音频数据的方法,其特征在于,所述方法包括下述操作步骤:(1)利用隐马尔科夫模型对音频文件中的音频数据进行基本音频事件的检测,得到基本音频事件序列,以获取该音频文件的低层语义分析结果;(2)对该音频文件的基本音频事件序列进行分割,获得多个音频场景片断;(3)采用基于机器学习和逻辑推理的两者优点相互结合的高层语义提取方法:先用训练方式提取出基本音频事件在某一特定语义场景中的重要程度的权重值,再根据逻辑推理规则对该权重值进行修正后,分析所述多个音频场景片断,获取该音频文件的高层语义分析结果;该步骤进一步包括下列操作内容:(31)将基本音频事件序列划分为设定时长的语义帧,形成一个语义帧序列;(32)根据测试样本,利用神经网络对该语义帧序列进行训练后,得到基本音频事件与各个音频场景之间相互关联的权重值;(33)根据先验知识,对所述训练得到的权重值进行修改:如果基本音频事件在某个特定场景中起着关键作用时,则增加该训练得到的权重值,并相应减少该特定场景中的其它基本音频事件的权重值;如果确定某个基本音频事件与某个特定场景无关或作用小时,则减小该训练得到的权重值;且在调整权值后,要保证所有的权重值都是非负数;(34)在所述音频文件中得到的由k个基本音频事件所组成的基本音频事件序列P<sub>k</sub>中,根据该序列中的每种基本音频事件出现的频率得到一组向量:W<sub>1</sub>,W<sub>2</sub>,...,W<sub>k</sub>,式中,自然数下标p是k个基本音频事件的序号,W<sub>p</sub>的数值越大,表示该基本音频事件W<sub>p</sub>在该基本音频事件序列P<sub>k</sub>中出现的频率越高;(35)利用神经网络和下述公式分别计算所述音频文件中每种音频场景的出现的次数Y,其中,第q个音频场景的出现次数为:<img file="FSB00000242673500011.GIF" wi="330" he="148" />式中,w<sub>pq</sub>表示基本音频事件p在某个场景q中的权重值,W<sub>p</sub>是基本音频事件W<sub>p</sub>在该基本音频事件序列P<sub>k</sub>中出现的次数;(36)选择出现次数最多的音频场景,用于对所述音频文件中得到的基本音频事件序列P<sub>k</sub>进行分类;并将该基本音频事件序列P<sub>k</sub>标记为该出现次数最多的音频场景,从而完成该音频文件的高层语义分析结果。
地址 100876 北京市海淀区西土城路10号