发明名称 面向3D音频的双声道编解码方法和编解码器
摘要 本发明提供了一种面向3D音频的双声道编解码方法和编解码器,本发明在面向3D音频的双声道技术基础上,根据人耳听觉特性,将更多的编码能量用于编码的主成分中,并针对不同的音频信号采用不同的编码方法进行编码,进而提出一种面向3D音频的双声道编解码方法及相应的编解码器。本发明方法能降低编解码噪音,使重建信号具有更高的信噪比,同时能更好的模拟3D音频信号。
申请公布号 CN102682779B 申请公布日期 2013.07.24
申请号 CN201210183963.0 申请日期 2012.06.06
申请人 武汉大学 发明人 胡瑞敏;董石;郑翔;涂卫平;杨玉红;王晓晨;高戈;刘梦颖
分类号 G10L19/008(2013.01)I;G10L21/0208(2013.01)I;H04S1/00(2006.01)I 主分类号 G10L19/008(2013.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 张火春
主权项 1.一种面向3D音频的双声道编码方法,其特征在于,包括步骤:S1.1、对输入的双声道信号分别进行时频变换,将时域上的双声道信号转换成频域上的双声道信号;S1.2、对所述的频域上的双声道信号分别进行子带划分,得到双声道子带信号;S1.3、分别采用基于频域主成份和基于极坐标主成份的参数编码方法对所述的双声道子带信号逐一进行编码,以得到各双声道子带信号在上述两种编码方法下所产生的编码噪音能量;所述的采用基于极坐标主成份的参数编码方法对所述的双声道子带信号进行编码所得到的编码噪音能量<img file="FDA00003108165100011.GIF" wi="602" he="217" />ε<sub>2.k</sub>为第k个双声道子带信号的编码噪音能量,ρ<sub>k</sub>(j)为第k个双声道子带信号中第j个频点的信号幅值,<img file="FDA00003108165100012.GIF" wi="700" he="108" />R<sub>k</sub>(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;S1.4、针对各双声道子带信号,选择较小编码噪音能量所对应的参数编码方法对该双声道子带信号进行进一步编码,若噪音能量相等,则选择基于频域主成分的参数编码方法对该双声道子带信号进行进一步编码;若采用基于频域主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、方向角以及噪音能量比;若采用基于极坐标主成分的参数编码方法进行进一步编码,则输出双声道子带信号的编码主成分序列、旋转半径以及噪音能量比;所述的采用基于极坐标主成分的参数编码方法所得到的编码主成分序列为:PC<sub>k</sub>={PC<sub>k</sub>(j)|j=1,2,...,n}其中,PC<sub>k</sub>为第k个双声道子带信号的主成分序列,PC<sub>k</sub>(j)为第k个双声道子带信号中第j个频点的主要成分,<img file="FDA00003108165100014.GIF" wi="905" he="79" /><img file="FDA00003108165100015.GIF" wi="126" he="72" />表示第k个双声道子带信号中第j个频点的方向角,<img file="FDA00003108165100013.GIF" wi="506" he="163" />L<sub>k</sub>(j)、R<sub>k</sub>(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为编号为k的子带中频点的数量;所述的采用基于极坐标主成分的参数编码方法所得到的旋转半径为:<maths num="0001"><![CDATA[<math><mrow><mover><msub><mi>&rho;</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msqrt><msubsup><mi>L</mi><mi>k</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>+</mo><msubsup><mi>R</mi><mi>k</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msqrt></mrow><mi>n</mi></mfrac></mrow></math>]]></maths>其中,<img file="FDA00003108165100025.GIF" wi="69" he="80" />为第k个双声道子带信号的旋转半径,L<sub>k</sub>(j)、R<sub>k</sub>(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;所述的采用基于极坐标主成分的参数编码方法所得到的噪音能量比为:<maths num="0002"><![CDATA[<math><mrow><mi>PAR</mi><mo>=</mo><mfrac><msup><mi>&pi;</mi><mn>2</mn></msup><mrow><mn>48</mn><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msup><mrow><mo>[</mo><msub><mi>&rho;</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&rho;</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>]</mo></mrow><mn>2</mn></msup></mrow></mfrac></mrow></math>]]></maths>其中,ρ<sub>k</sub>(j)为第k个双声道子带信号中第j个频点的信号幅值,<img file="FDA00003108165100023.GIF" wi="519" he="98" />L<sub>k</sub>(j)、R<sub>k</sub>(j)分别为第k个左声道子带信号和右声道子带信号中第j个频点的信号,n为第k个双声道子带信号中频点的数量;S1.5、对所述的编码主成分序列进行下混,得到下混信号;S1.6、采用核心编码器对所述的下混信号进行编码,得到编码码流,并将所述的方向角或旋转半径、和噪音能量比写入编码码流。
地址 430072 湖北省武汉市武昌区珞珈山武汉大学