一种空间音频参数帧间预测编解码方法,申请号CN200910062732.2-传众专利搜索

发明名称	一种空间音频参数帧间预测编解码方法
摘要	本发明提供了基于贝叶斯梯度模型的空间音频参数帧间预测技术方案。编码过程：对输入的多声道音频信号的帧信号分子带提取空间音频参数；根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测，得到当前帧的空间音频参数预测系数和空间音频参数预测残差；对当前帧的空间音频参数预测残差进行编码得到编码码流。解码过程：从编码码流中解码得到帧信号的空间音频参数预测残差；用之前重建得到的一帧或多帧空间音频参数及当前帧的空间音频参数预测残差，得到空间音频参数预测系数，然后重建得到当前帧的空间音频参数。本发明考虑了空间音频参数的时域相关性，可有效降低编码码率。
申请公布号	CN101582262A	申请公布日期	2009.11.18
申请号	CN200910062732.2	申请日期	2009.06.16
申请人	武汉大学	发明人	胡瑞敏;周成;杭波;王晓晨
分类号	G10L19/04(2006.01)I	主分类号	G10L19/04(2006.01)I
代理机构	武汉天力专利事务所	代理人	严彦;冯卫平
主权项	1.一种空间音频参数帧间预测编码方法，其特征在于：包含以下步骤，步骤1.1，对输入的多声道音频信号的帧信号分子带提取空间音频参数；步骤1.2，根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测，得到当前帧的空间音频参数预测系数和空间音频参数预测残差，具体实现过程如下，(1)设每帧信号分K个子带，第m帧的K个子带的空间音频参数记为S<sub>m1</sub>，S<sub>m2</sub>，…S<sub>m</sub>K，K≥2；设第m帧之前第M帧第K个子带的空间音频参数记为S<sub>(m-M)K</sub>，第m帧前M帧的所有子带的空间音频参数则为S<sub>(m-M)1</sub>，S<sub>(m-M)2</sub>，…S<sub>(m-M)K</sub>，S<sub>(m-M+1)1</sub>，S<sub>(m-M+1)2</sub>，…S<sub>(m-M+1)K</sub>，…S<sub>(m-1)1</sub>，S<sub>(m-1)2</sub>，…S<sub>(m-1)K</sub>，M≥1；设第m帧的第i个子带的空间音频参数帧间差值<maths num="0001"><![CDATA[<math><mrow><msubsup><mi>D</mi><mi>i</mi><mrow><mi>m</mi><mo>,</mo><mi>m</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>=</mo><msub><mi>S</mi><mrow><mrow><mo>(</mo><mi>m</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mi>i</mi></mrow></msub><mo>-</mo><msub><mi>S</mi><mi>mi</mi></msub><mo>,</mo></mrow></math>]]></maths>设空间音频参数的取值范围为-f到f，则D<sub>i</sub><sup>m，m+1</sup>可能的取值范围为-2f到2f，这4f+1个差值的概率分布为<maths num="0002"><![CDATA[<math><mrow><mi>P</mi><mo>{</mo><msub><mrow><mo>(</mo><msubsup><mi>D</mi><mi>i</mi><mrow><mi>m</mi><mo>,</mo><mi>m</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>)</mo></mrow><mi>j</mi></msub><mo>}</mo><mo>,</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mn>4</mn><mi>f</mi><mo>+</mo><mn>1</mn><mo>;</mo></mrow></math>]]></maths>(2)预测方式如下，设事件B<sub>mi</sub><sup>j</sup>对应于第m帧的第i个子带的空间音频参数从-f到f一共2f+1种取值，则B<sub>mi</sub><sup>j</sup>，j＝1，2...2f+1互斥且构成一个完全事件，P(B<sub>mi</sub><sup>j</sup>)，j＝1，2...2f+1为事件B<sub>mi</sub><sup>j</sup>发生的概率，在无任何先验知识的情况下P(B<sub>mi</sub><sup>j</sup>)的初始值为<maths num="0003"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mrow><mn>1</mn><mi>i</mi></mrow><mn>1</mn></msubsup><mo>)</mo></mrow><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mrow><mn>1</mn><mi>i</mi></mrow><mn>2</mn></msubsup><mo>)</mo></mrow><mo>.</mo><mo>.</mo><mo>.</mo><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mrow><mn>1</mn><mi>i</mi></mrow><mrow><mn>2</mn><mi>f</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>/</mo><mn>2</mn><mi>f</mi><mo>+</mo><mn>1</mn><mo>;</mo></mrow></math>]]></maths>设定事件A为伴随事件B<sub>mi</sub><sup>j</sup>，j＝1，2...2f+1发生而出现，由第m帧各子带的空间音频参数取值得到第m+1帧各子带的空间音频参数取值可能，则由第i个子带m帧空间音频参数取值S<sub>mi</sub>得到第m+1帧各空间音频参数取值概率为<maths num="0004"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><mi>A</mi><mo>/</mo><msubsup><mi>B</mi><mi>mi</mi><mi>j</mi></msubsup><mo>)</mo></mrow><mo>=</mo><mi>P</mi><mo>{</mo><msub><mrow><mo>(</mo><msubsup><mi>D</mi><mi>i</mi><mrow><mi>m</mi><mo>,</mo><mi>m</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>)</mo></mrow><mrow><mi>j</mi><mo>-</mo><msub><mi>S</mi><mi>mi</mi></msub><mo>+</mo><mi>f</mi></mrow></msub><mo>}</mo><mo>,</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>f</mi><mo>+</mo><mn>1</mn><mo>;</mo></mrow></math>]]></maths>在已知事件B<sub>mi</sub><sup>j</sup>的概率P(B<sub>mi</sub><sup>j</sup>)和事件B<sub>mi</sub><sup>j</sup>发生条件下事件A的概率P(A/B<sub>mi</sub><sup>j</sup>)的情况下，运用贝叶斯定理得到在事件A发生条件下第m+1帧事件B<sub>(m+1)i</sub><sup>j</sup>的发生概率为<maths num="0005"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mrow><mrow><mo>(</mo><mi>m</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mi>i</mi></mrow><mi>j</mi></msubsup><mo>/</mo><mi>A</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mi>mi</mi><mi>j</mi></msubsup><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>A</mi><mo>/</mo><msubsup><mi>B</mi><mi>mi</mi><mi>j</mi></msubsup><mo>)</mo></mrow></mrow><mrow><munderover><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mrow><mn>2</mn><mi>f</mi><mo>+</mo><mn>1</mn></mrow></munderover><mi>P</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mi>mi</mi><mi>n</mi></msubsup><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>A</mi><mo>/</mo><msubsup><mi>B</mi><mi>mi</mi><mi>n</mi></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>,</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mn>2</mn><mi>f</mi><mo>+</mo><mn>1</mn><mo>;</mo></mrow></math>]]></maths>预测时初始化<maths num="0006"><![CDATA[<math><mrow><msubsup><mi>B</mi><mrow><mrow><mo>(</mo><mi>m</mi><mo>-</mo><mi>K</mi><mo>)</mo></mrow><mi>i</mi></mrow><mi>j</mi></msubsup><mo>=</mo><mfrac><mn>1</mn><mrow><mn>2</mn><mi>f</mi><mo>+</mo><mn>1</mn></mrow></mfrac><mo>,</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mn>2</mn><mi>f</mi><mo>+</mo><mn>1</mn><mo>,</mo></mrow></math>]]></maths>然后将第m帧之前M帧的所有子带的空间音频参数S<sub>(m-M)1</sub>，S<sub>(m-M)2</sub>，…S<sub>(m-M)K</sub>，S<sub>(m-M+1)1</sub>，S<sub>(m-M+1)2</sub>，…S<sub>(m-M+1)K</sub>，…S<sub>(m-1)1</sub>，S<sub>(m-1)2</sub>，…S<sub>(m-1)K</sub>依次代入<maths num="0007"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><mi>A</mi><mo>/</mo><msubsup><mi>B</mi><mi>qi</mi><mi>j</mi></msubsup><mo>)</mo></mrow><mo>=</mo><mi>P</mi><mo>{</mo><msub><mrow><mo>(</mo><msubsup><mi>D</mi><mi>i</mi><mrow><mi>q</mi><mo>,</mo><mi>q</mi><mo>+</mo><mn>1</mn></mrow></msubsup><mo>)</mo></mrow><mrow><mi>j</mi><mo>-</mo><msub><mi>S</mi><mi>qi</mi></msub><mo>+</mo><mi>f</mi></mrow></msub><mo>}</mo><mo>,</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mn>2</mn><mi>f</mi><mo>+</mo><mn>1</mn><mo>,</mo></mrow></math>]]></maths><maths num="0008"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mrow><mrow><mo>(</mo><mi>q</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mi>i</mi></mrow><mi>j</mi></msubsup><mo>/</mo><mi>A</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mi>qi</mi><mi>j</mi></msubsup><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>A</mi><mo>/</mo><msubsup><mi>B</mi><mi>qi</mi><mi>j</mi></msubsup><mo>)</mo></mrow></mrow><mrow><munderover><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mrow><mn>2</mn><mi>f</mi><mo>+</mo><mn>1</mn></mrow></munderover><mi>P</mi><mrow><mo>(</mo><msubsup><mi>B</mi><mi>qi</mi><mi>n</mi></msubsup><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>A</mi><mo>/</mo><msubsup><mi>B</mi><mi>qi</mi><mi>n</mi></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>,</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mn>2</mn><mi>f</mi><mo>+</mo><mn>1</mn></mrow></math>]]></maths>其中m-K≤q≤m-1；最终得到事件A发生条件下B<sub>mi</sub><sup>j</sup>的发生概率P(B<sub>mi</sub><sup>j</sup>/A)，j＝1，2...2f+1，以P(B<sub>mi</sub><sup>j</sup>/A)，j＝1，2...2f+1最大的值作为对第m帧的第i个子带的空间音频参数预测系数<img file="A2009100627320003C6.GIF" wi="83" he="70" />设当前帧为第m帧，根据第m帧的第i子带的空间音频参数S<sub>mi</sub>和空间音频参数预测系数<img file="A2009100627320003C7.GIF" wi="86" he="71" />计算当前帧的第i子带的空间音频参数预测残差<maths num="0009"><![CDATA[<math><mrow><msub><mi>δ</mi><mi>mi</mi></msub><mo>=</mo><msub><mi>S</mi><mi>mi</mi></msub><mo>-</mo><mover><msub><mi>S</mi><mi>mi</mi></msub><mo>^</mo></mover><mo>,</mo></mrow></math>]]></maths>i取1～K；步骤1.3，对当前帧的空间音频参数预测残差进行编码得到编码码流。
地址	430072湖北省武汉市武昌珞珈山