发明名称 一种基于MFCCM的音频数据检索方法
摘要 本发明属于多媒体数据检索、处理技术,提供一种基于MFCCM的音频数据检索方法,通过构建音MFCCM,对MFCCM进行多列塔型检索,MFCCM与mfcc_q矩阵列的相似性分析,计算MFCCM与mfcc_q相关帧的距离等步骤实现。本发明所采用的方法克服现有方法中存在的检索效率和检索精度的问题,为多媒体数据检索、处理,音频数据分析、索引、搜索和检索提供一种高效率和高精度的方法。
申请公布号 CN101226558B 申请公布日期 2011.08.31
申请号 CN200810070557.7 申请日期 2008.01.29
申请人 福州大学 发明人 李应
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 1.一种基于MFCCM的音频数据检索方法,其特征在于:该方法通过以下步骤实现:步骤一:根据现有的音频数据构建音频数据MFCCM数据库,并计算待查询、检索的音频数据mfcc_q矩阵;步骤二:对MFCCM进行多列塔型检索,选出一定比例的相关音频数据;步骤三:MFCCM与mfcc_q矩阵列的相似性分析,得到可能的音频数据与待查询数据相似的帧的起始点;步骤四:计算MFCCM与mfcc_q相关帧的距离msc,取其中msc最小的音频数据为检索结果;以上四步骤,能根据对检索精度的要求只采用步骤一、步骤二,也能采用步骤一、步骤二、步骤三和步骤四来实现音频数据检索;在上述步骤一中,所述的构建音频数据MFCCM数据库包括:把一个音频数据文件的每个帧的MFCC,作为矩阵的行,按顺序组成的矩阵就是MFCCM,它可以表示为:<img file="FSB00000470956900011.GIF" wi="796" he="131" />,其中,i=1,2,…,I,j=0,1,…,R,1≤R≤L,I为一个音频数据文件分帧的数量,R为一帧音频数据MFCC的个数,L为临界频带的数量;对于要查询、检索的音频数据,同样计算其MFCCM,把它表示为mfcc_q(Iq,R)矩阵,以示与数据库中已有MFCCM的区别,其中Iq为要查询、检索的音频数据分帧的数量;在上述步骤二中,所述的对MFCCM进行多列塔型检索包括:首先,设定一个阈值Y1;然后,取出mfcc_q矩阵中的第一列,与数据库中已有的所有的MFCCM中第一列进行部分或全部的比较,即计算tx(1:Iq)=mfcc(n:n+Iq-1,1)-mfcc_q(:,1),ty=|tx(1)|+|tx(2)|+…+|tx(n-m)|;其中,n=1,2,…,I-Iq+1,I为MFCCM的列数,Iq为要查询、检索的音频数据分帧的数量,mfcc(n:n+Iq-1,1)表示MFCCM矩阵第一列的n到n+Iq-1行;比较计算从n=1开始,结束的条件是ty<=Y1或n=I-Iq+1;如果ty<=Y1,则在结束该次比较的同时,记录数据库中该音频数据的MFCCM,作为下一层塔型搜索的基础;同样,对数据库中的另一音频数据的MFCCM进行同样操作,直到搜索数据库中所有相关内容;取出上述的音频数据MFCCM,以Y2为阈值,进行与要查询音频数据mfcc_q矩阵的第二列的比较计算,同样,再分别以Y3和Y4作为阈值,对MFCCM的第三列和第四列进行同样检索;通过多层塔型的检索,将选出一定比例的相关音频数据进入下一环节的分析与检索。
地址 350002 福建省福州市工业路523号