发明名称 一种基于局部频谱图像描述子的鲁棒音频识别方法
摘要 本发明属基于内容的音乐检索技术领域,涉及一种基于局部频谱图像描述子的鲁棒音频识别方法,本发明方法中,将一维音频信号转化为二维听觉图像,提取图像特征作为音频指纹,使其对时间缩放和变调等主要的音频失真类型具有鲁棒性;其包括指纹提取步骤和指纹匹配步骤)两部分。本发明不同于现有技术的单纯基于频谱特征或节奏特征的方法,而是将一维音频信号转换为二维的图像信号,基于计算机视觉技术提取强鲁棒性的局部图像特征作为音频指纹,同时将时间缩放攻击和变调等失真行为视作对相应图像的伸缩和平移处理。本发明从全新思路提供了一种新的强鲁棒性音频指纹,从而实现在各种信号失真以及时-频伸缩的情况下,仍能准确地进行音频识别。
申请公布号 CN103729368A 申请公布日期 2014.04.16
申请号 CN201210389035.X 申请日期 2012.10.13
申请人 复旦大学 发明人 李伟;朱碧磊;董旭炯
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海元一成知识产权代理事务所(普通合伙) 31268 代理人 吴桂琴
主权项 1.一种基于局部频谱图像描述子的鲁棒音频识别方法,其特征在于,将一维音频信号转化为二维听觉图像,提取图像特征作为音频指纹,使其对时间缩放和变调主要的音频失真类型具有鲁棒性;其包括指纹提取步骤(1),(2)和指纹匹配步骤(3):步骤1,使用短时傅里叶变换(STFT)将1维音频信号转换为2维时-频表示;其中,(1)使用长度为185.76ms、重叠率为75%的汉宁窗对音频信号进行时域上的重叠分段;(2)利用短时傅里叶变换得到时-频平面语谱图,再依照公式(1)将其量化成对数空间上的64个子频带,<maths num="0001"><![CDATA[<math><mrow><msub><mi>f</mi><mi>i</mi></msub><mo>=</mo><mn>318</mn><mo>*</mo><msup><mn>2</mn><mfrac><mrow><mi>i</mi><mo>-</mo><mn>1</mn></mrow><mn>12</mn></mfrac></msup><mo>,</mo></mrow></math>]]></maths>i=1,2,...,64          (1)其中f<sub>i</sub>是第i个子频带的中心频率;步骤2,在语谱图上计算SIFT局部描述子,并将每一个描述子作为音频信号的一个子指纹;其中,SIFT特征提取的过程如下:(1)尺度空间极值检测,以初步确定关键点位置和所在尺度;(2)通过函数拟合精确确定关键点的位置与尺度,除去对噪声敏感的低对比度的关键点以及不稳定的边缘响应点;(3)利用关键点邻域的局部像素梯度方向,为每个关键点指定方向参数,使算子具备旋转不变性;(4)生成SIFT特征描述符,对每个关键点采用4*4共16个邻域像素计算8个方向的梯度直方图,形成一个128维的描述子;步骤3,将检索音频片段的每个子指纹与数据库中原始音频的子指纹进行匹配,返回和检索音频片段具有最多匹配子指纹的原始音频作为识别结果;其中的指纹匹配过程包括基于LSH方法的指纹检索步骤和相似性计算步骤:(1)基于LSH方法的指纹检索采用LSH方法加速子指纹的检索,给定一个点集{p},一个哈希函数定义为,g(p)=(h<sub>1</sub>(p),...,h<sub>k</sub>(p))                               (2)其中k是宽度函数,{h<sub>j</sub>(p),j=1,…,k}是LSH函数,这些LSH函数满足如下不等式,P<sub>r</sub>(h(q)=h(v))≥p<sub>1</sub>,当||q-r||≤r<sub>1</sub>P<sub>r</sub>(h(q)=h(v))≤p<sub>2</sub>,当||q-r||≥r<sub>2</sub>                                 (3)p<sub>1</sub>,p<sub>2</sub>,r<sub>1</sub>,r<sub>2</sub>是相应阈值,满足p<sub>1</sub>>p<sub>2</sub>,r<sub>1</sub><r<sub>2</sub>;而q和v是任意两点,且||q-r||为两点间距离;公式(3)表明距离小于r<sub>1</sub>的两点比距离大于r<sub>2</sub>的两点在概率上更有可能被映射到同一个桶中;(2)指纹相似性计算利用LSH将相似指纹映射到相同的桶中后,为检索音频片段的每个子指纹做相似搜索,设置额外的指纹匹配过滤LSH的最近邻检索结果:设a是待测子指纹,b是LSH检索到的数据库中与a距离最近的指纹,b’是除b外与a的距离最近的指纹,若如下不等式成立,D(a,b)<Th*D(a,b′)                                           (4)则表明a与b是匹配的;式中D(x,y)表示变量x与y之间的欧氏距离,Th是设定的阈值。
地址 200433 上海市杨浦区邯郸路220号