发明名称 一种基于音频突发事件分类的多码本编码参数量化方法
摘要 本发明公开了一种基于音频突发事件分类的多码本编码参数量化方法,属于音频编码技术领域。本方法首先对输入的音频信号逐帧进行暂态检测,然后对检测出的暂态帧进行突发事件分类,最后对得到的音频突发事件的编码参数,进行基于突发事件分类码本的矢量量化,由此实现了音频突发事件的分类和音频突发事件编码参数的量化过程。本发明方法提高了对突发事件编码参数的量化效果,改善了突发事件的编码音质。
申请公布号 CN101587710B 申请公布日期 2011.12.14
申请号 CN200910088368.7 申请日期 2009.07.02
申请人 北京理工大学 发明人 王晶;谢湘;匡镜明
分类号 G10L19/02(2006.01)I;G10L11/00(2006.01)I;G10L15/08(2006.01)I 主分类号 G10L19/02(2006.01)I
代理机构 北京理工大学专利中心 11120 代理人 张利萍
主权项 1.一种基于音频突发事件分类的多码本编码参数量化方法,其特征在于包括以下步骤:步骤一、对输入的音频信号逐帧进行暂态检测:首先,计算短时帧与长时帧的能量比:对输入的每帧音频信号的采样点x<sub>1</sub>、x<sub>2</sub>、......、x<sub>N</sub>,用窗长为L个样点的矩形滑动窗将长时帧划分为交叠长度为p个样点的短时帧,短时帧间呈50%叠接;然后,分别计算长时帧的总能量<img file="FDA0000075572690000011.GIF" wi="426" he="141" />和每个短时帧的能量<maths num="0001"><![CDATA[<math><mrow><msub><mi>E</mi><mi>short</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mi>kp</mi><mo>-</mo><mi>L</mi><mo>/</mo><mn>2</mn></mrow><mrow><mi>k</mi><mo>+</mo><mi>L</mi><mo>/</mo><mn>2</mn></mrow></munderover><msup><mrow><mo>|</mo><mi>x</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>2</mn></msup><mo>,</mo><mi>k</mi><mo>=</mo><mn>0,1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>N</mi><mo>/</mo><mi>p</mi><mo>;</mo></mrow></math>]]></maths>之后,进行门限判决:计算本帧内每个短时帧能量和长时帧总能量之比,若某一能量比超过了预设的门限值R<sub>thr</sub>,即E<sub>short</sub>(k)/E<sub>long</sub>>R<sub>thr</sub>,则判别该长时帧为暂态帧,否则,判别其为非暂态帧;步骤二、对由步骤一检测出的暂态帧采用基于GMM的模式识别方法进行突发事件分类:若从暂态帧中提取的PLP感知加权线性预测特征和事先已通过训练得到的某一类音频突发事件的GMM参考模型的匹配似然度最大,则判别该暂态帧所属的音频信号为此类音频突发事件;步骤三、对音频突发事件的编码参数,进行基于突发事件分类码本的矢量量化:事先对每类音频突发事件的编码参数进行LBG码本训练,得到每类事件对应的参数码本,针对每一类特定音频突发事件的训练语料,对所有输入分析帧进行MDCT变换编码得到待量化的MDCT谱系数矢量,利用LBG码本训练算法得到每一类突发事件对应的谱系数码本,从而为每类音频突发事件建立了矢量量化码本,形成多码本库;然后根据经步骤二判别出的音频突发事件,在每类已经训练好的谱系数编码参数码本库中,选择相对应的该类码本进行矢量量化,输出参数矢量的码字索引。
地址 100081 北京市海淀区中关村南大街5号