发明名称 长短帧联合的混合音频信号多基音估计方法
摘要 本发明涉及一种长短帧联合的混合音频信号多基音估计方法。本方法首先将混合音频信号分成帧中心重合的长帧和短帧信号,并分别对其进行短时傅里叶变换;然后通过对长帧和短帧信号的频谱峰值进行基于谐波原理的迭代处理实现多基音初步估计。为提高基音估计的准确率,还进行了以下两步跟踪平滑:首先利用短时自相关方法计算得到的混合信号的主基音值进行跟踪平滑,然后使用长、短窗信号频谱同的第一峰值处的频率和非第一峰值整数倍共同的第二峰值处频率作为两个信号的基音值,继续平滑跟踪基音值。本方法的优点是长、短窗相结合,克服了短时傅立叶变换中时间分辨率和频率分辨率之间的矛盾,避免了由于主瓣太宽而使得某些谐波峰值因相互覆盖而丢失的缺点。同时两步跟踪平滑又使得某些帧中错误估计的基音值得到了校正。
申请公布号 CN101567188A 申请公布日期 2009.10.28
申请号 CN200910050350.8 申请日期 2009.04.30
申请人 上海大学 发明人 王冬梅;黄青华
分类号 G10L19/00(2006.01)I;G05B13/00(2006.01)I 主分类号 G10L19/00(2006.01)I
代理机构 上海上大专利事务所(普通合伙) 代理人 何文欣
主权项 1.长短帧联合的混合音频信号多基音估计方法,其特征在于基于谐波模型并结合长、短帧信号的频谱来对混合音频信号进行多基音估计,其步骤如下:(1)将混合音频信号分成帧中心相对应的长帧和短帧,分别对每一组长帧和短帧信号进行短时傅立叶变换,提取各自的频谱峰值并进行预处理,得到长窗信号的频谱峰值<img file="A2009100503500002C1.GIF" wi="200" he="60" />以及短窗信号的频谱峰值<img file="A2009100503500002C2.GIF" wi="262" he="65" />(2)利用长窗信号的频谱峰值<img file="A2009100503500002C3.GIF" wi="201" he="59" />进行该帧混合信号的主基音初步估计:计算<img file="A2009100503500002C4.GIF" wi="200" he="60" />所有峰值之间的频率间隔并作为潜在基音向量<img file="A2009100503500002C5.GIF" wi="328" he="47" />再利用<img file="A2009100503500002C6.GIF" wi="297" he="49" />每个元素与<img file="A2009100503500002C7.GIF" wi="201" he="60" />中实际峰值频率的误差最小以及谐波数最多的联合约束条件来计算本帧初始主基音Pitch<sub>promi</sub>;(3)利用Pitch<sub>promi</sub>、<img file="A2009100503500002C8.GIF" wi="136" he="60" />以及<img file="A2009100503500002C9.GIF" wi="143" he="60" />判断本帧信号的个数状态,用状态向量<img file="A2009100503500002C10.GIF" wi="226" he="56" />来表示;其判断过程是根据音频信号的谐波原理以及频谱峰值和频谱能量之间的关系,将混合信号分为四种情况,分别是:情况1,只有一个以Pitch<sub>promi</sub>为基音的信号;情况2,只有一个以Pitch<sub>promi</sub>的两倍或更高频率为基音值的信号;情况3,以高频基音信号为主能量信号,而以Pitch<sub>promi</sub>为基音的信号是非主要能量信号;情况4,有两个信号且能量相当;(4)根据步骤(3)中个数状态向量<img file="A2009100503500002C11.GIF" wi="226" he="58" />进行各种状态下的基音估计。在谐波原理的基础上,利用频谱峰值<img file="A2009100503500002C12.GIF" wi="161" he="59" /><img file="A2009100503500002C13.GIF" wi="142" he="60" />以及潜在基音向量<img file="A2009100503500002C14.GIF" wi="310" he="50" />在频率上的整数倍关系,在频率偏差最小和谐波数最多的联合约束条件下,通过选取最优值进行多基音估计;(5)用每一帧的短时自相关峰值进行估计后的基音的平滑跟踪;(6)选择每一组对应长帧信号和短帧信号频谱峰值共同的第一峰值和第二峰值(非第一峰值整数倍)处的频谱对(5)中处理过的峰值进行第二次跟踪平滑;(7)利用连续基音值的相似性和连续谐波峰值相似性,将以上跟踪平滑过后的峰值进行聚类,使其归属到各自的信号。
地址 200444上海市宝山区上大路99号