发明名称 一种自适应音频感知响度调整方法
摘要 本发明属于多媒体信息处理和音频分析领域,涉及一种自适应音频感知响度调整方法,包括:对于当前音频文件进行等响度滤波;对于音频信号按特定窗口大小计算其RMS能量值,从而得到整个音频文件的RMS能量序列;将RMS能量序列转换为分贝值序列,并对其进行升序排序;对升序的分贝值序列利用差分法计算二阶导数,并利用局部窗口平均法进行二阶导数序列的平滑处理;当序列过长时,对原始序列进行亚采样;在平滑后的二阶导数序列上搜索当前音频的最优稳定分贝区间,计算此区间的平均分贝值作为当前音频文件的最优稳定响度。采用线性映射的方法对该音频进行响度调整。本发明具有运行速度快、校正准确、符合声学感知、性能稳定、无损音频音质等优点。
申请公布号 CN102610232A 申请公布日期 2012.07.25
申请号 CN201210005515.1 申请日期 2012.01.10
申请人 天津大学 发明人 冯伟;万亮;谭志羽;江建民
分类号 G10L19/00(2006.01)I;G10L21/02(2006.01)I 主分类号 G10L19/00(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 程毓英
主权项 一种自适应音频感知响度调整方法,包括以下步骤:a)对当前音频信号进行等响度滤波;b)计算RMS能量序列:首先,将滤波后的音频信号按照时间间隔分割成若干个窗口,设每个窗口的数据量为M,计算每个窗口的均方根值,得到整个音频文件的RMS能量序列;c)能量分贝转换:将RMS能量序列转换为分贝序列,并对分贝序列进行升序排序得到SDB序列;d)采用差分法计算SDB序列的二阶导数SDB″序列;e)设置一个局部窗口,利用局部均值对SDB″序列进行平滑操作,去除干扰噪声,得到wSDB″序列;f)如果wSDB″序列长度大于某一特定阈值时,采用线性插值亚采样的方法降低样本数量,亚采样后的平滑二阶导数序列仍记为wSDB″序列;g)构造衡量某一时间区间[t1,t2]是否为最优稳定分贝空间可能性的能量函数 <mrow> <mi>E</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <mrow> <mi>std</mi> <mrow> <mo>(</mo> <msup> <mi>wSDB</mi> <mrow> <mo>&prime;</mo> <mo>&prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>其中,std(·)为标准差,α为调制系数,wSDB″(t1→t2)表示wSDB″序列中从t1到t2的子段,遍历所有可能的时间区间[t1,t2]组合,求出其中能量函数取值最大的时间区间作为最优稳定分贝区间,并在此区间上求均值,得到当前音频文件的最优稳定分贝代表值;h)按照83dB标准,恢复当前音频文件的最优稳定响度。i)在当前音频文件的最优稳定响度的基础上,采用线性映射的方法,调整该音频的实际响度。
地址 300072 天津市南开区卫津路92号