发明名称 一种快速音频检索的方法
摘要 一种快速音频检索的方法,它涉及一种音频检索的方法。本发明的目的是提供一种快速音频检索的方法,以进一步提高音频检索的速度。本发明所述的快速音频检索的方法经过预处理阶段后进入检索阶段;所述预处理阶段的过程为:对音频库提取MFCC参数、分类、对查询音频段(检索目标)提取MFCC参数、按划分的类别对所述查询音频段进行归类;所述检索阶段的检索过程为:查看查询音频段的类别、粗检索、精检索。用本发明方法的速度为4ms检索8.5小时,速度换算过后比经典方法快了大约3倍(Pentium M 1.6GHz)。
申请公布号 CN101566999A 申请公布日期 2009.10.28
申请号 CN200910072161.0 申请日期 2009.06.02
申请人 哈尔滨工业大学 发明人 任广辉;吴静龙
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 哈尔滨市松花江专利商标事务所 代理人 杨立超
主权项 1、一种快速音频检索的方法,所述方法经过预处理阶段后进入检索阶段,其特征在于:所述预处理阶段的过程为:步骤A1、对音频库提取MFCC参数:对待查询的音频库的音频信号进行特征提取,获得特征信息;所获得的特征信息用a×m的矩阵表示,a为大于6且小于等于30的整数;m、n均为整数,m>>n,n≥4;特征提取时,帧长为2~3s,帧移为0.2~0.3s;按所述的帧长、帧移,将所述a×m的矩阵分成若干个a×n的矩阵,每个矩阵为一帧;n为整数,n≥4;步骤A2、对查询音频段提取MFCC参数:按步骤A1所述的帧长、帧移,对查询音频段的音频信号进行特征提取,获得特征信息;所获得的特征信息为一帧,用一个12×n的矩阵表示,n为整数,n≥4;步骤A3、分类:将步骤A1中的所述若干个帧分为32类;按每帧的前X列的元素分类,X可取3~4;步骤A4、按步骤A3中划分的类别对所述查询音频段进行归类;所述检索阶段的检索过程为:查看查询音频段的类别、粗检索和精检索;查看查询音频段的类别:步骤B1、开始检索,取新的一帧,所述帧为待查询的音频库中的帧;步骤B2、判断步骤B1中所述帧是否到帧尾;如果是,结束此次查看查询音频段的类别的过程;否则,执行步骤B3;步骤B3、判断类别是否匹配;判断查询音频段所对应的帧与待查询的音频库中的当前帧的类别是否匹配;如果是,执行步骤B4;否则,执行步骤B1;粗检索:步骤B4、取特征参数中的一个新元素:取待查询的音频库中匹配帧中的一个新元素;步骤B5、计算待查询的音频库中匹配帧中的一个新元素与查询音频段对应元素的距离;步骤B6、判断步骤B5中所得距离是否大于门限;如果是,执行步骤B1;否则,执行步骤B7;步骤B7、计算待查询的音频库中匹配帧中下一个特征参数元素的距离;步骤B8、判断是否取到的是最后一个元素;所述最后一个元素是指所述帧的前Y列的最后一个元素,Y可取2~8;如果是,执行步骤B9;否则,执行步骤B4;步骤B9、记录下该帧的位置,存入位置数组中;精检索:步骤B10、取位置数组中新的一帧;步骤B11、判断步骤B10中所述帧是否到帧尾;如果是,结束此次检索;否则,执行步骤B12;步骤B12、计算与查询音频段特征矩阵的距离;所述距离是指查询音频段特征矩阵与所对比的特征矩阵的各个对应元素差的平方和。步骤B13、判断是否大于门限;如果是,执行步骤B10;否则,执行步骤B14;步骤B14、找到目标;然后再执行步骤B10,直到结束此次检索。
地址 150001黑龙江省哈尔滨市南岗区西大直街92号