发明名称 音频信号译码器、提供上混信号表示型态的方法
摘要 本发明提供了一种音频信号译码器、提供上混信号表示型态的方法,用以根据下混信号表示型态及对象相关的参数信息而提供上混信号表示型态,该音频信号译码器包括:对象分离器,被配置为分解该下混信号表示型态,以根据该下混信号表示型态及使用该对象相关的参数信息中的至少一部分提供描述第一音频对象类型的一个或多个音频对象的第一集合的第一音频信息,及描述第二音频对象类型的一个或多个音频对象的第二集合的第二音频信息。该音频信号译码器还包括音频信号处理器,被配置为接收该第二音频信息,以及根据该对象相关的参数信息处理该第二音频信息,以获得该第二音频信息的已处理的版本。
申请公布号 CN103474077A 申请公布日期 2013.12.25
申请号 CN201310404595.2 申请日期 2010.06.23
申请人 弗兰霍菲尔运输应用研究公司 发明人 奥利弗·黑尔慕斯;科尔内利娅·法尔克;于尔根·赫莱;约翰内斯·希尔珀特;法尔科·里德鲁施;列昂尼德·特伦蒂夫
分类号 G10L19/008(2013.01)I;G10L19/20(2013.01)I;H04S7/00(2006.01)I 主分类号 G10L19/008(2013.01)I
代理机构 北京康信知识产权代理有限责任公司 11240 代理人 余刚;吴孟秋
主权项 1.一种音频信号译码器(100;200;500;590),用以根据下混信号表示型态(112;210;510;510a)和对象相关的参数信息(110;212;512;512a)提供上混信号表示型态,所述音频信号译码器包括:对象分离器(130;260;520;520a),被配置为分解所述下混信号表示型态,以根据所述下混信号表示型态及使用所述对象相关的参数信息的至少一部分提供描述第一音频对象类型的一个或多个音频对象的第一集合的第一音频信息(132;262;562;562a),和描述第二音频对象类型的一个或多个音频对象的第二集合的第二音频信息(134;264;564;564a),音频信号处理器,被配置为接收所述第二音频信息(134;264;564;564a),以及根据所述对象相关的参数信息处理所述第二音频信息,以获得所述第二音频信息的已处理的版本(142;272;572;572a);以及音频信号组合器(150;280;580;580a),被配置为组合所述第一音频信息与所述第二音频信息的所述已处理的版本,以获得所述上混信号表示型态;其中,所述对象分离器被配置为根据<img file="FDA0000378671740000011.GIF" wi="564" he="335" /><img file="FDA0000378671740000012.GIF" wi="671" he="335" />获得所述第一音频信息及所述第二音频信息,其中,<maths num="0001"><![CDATA[<math><mrow><msub><mi>M</mi><mi>Prediction</mi></msub><mo>=</mo><msup><mover><mi>D</mi><mo>~</mo></mover><mrow><mo>-</mo><mn>1</mn></mrow></msup><mi>C</mi><mo>,</mo></mrow></math>]]></maths>其中,<img file="FDA0000378671740000022.GIF" wi="460" he="156" />其中,X<sub>OBJ</sub>表示所述第二音频信息的信道;其中,X<sub>EAO</sub>表示所述第一音频信息的对象信号;其中,<img file="FDA0000378671740000027.GIF" wi="83" he="57" />表示扩展的下混矩阵的逆矩阵;其中,C描述表示多个信道预测系数<img file="FDA0000378671740000029.GIF" wi="220" he="78" />的矩阵;其中,l<sub>0</sub>及r<sub>0</sub>表示所述下混信号表示型态的信道;其中,res<sub>0</sub>至<img file="FDA0000378671740000028.GIF" wi="176" he="51" />表示剩余信道;以及其中,A<sup>EAO</sup>为EAO预描绘矩阵,其元描述增强的音频对象到增强的音频对象的信号X<sub>EAO</sub>的信道的映射;其中,所述对象分离器被配置为获得逆下混矩阵<img file="FDA0000378671740000023.GIF" wi="77" he="52" />作为扩展的下混矩阵<img file="FDA0000378671740000024.GIF" wi="38" he="51" />的逆矩阵,其中<img file="FDA0000378671740000025.GIF" wi="38" he="51" />被定义为<img file="FDA0000378671740000026.GIF" wi="886" he="422" />其中,所述对象分离器被配置为获得矩阵C为<img file="FDA0000378671740000031.GIF" wi="862" he="458" />其中,m<sub>0</sub>至<img file="FDA0000378671740000032.GIF" wi="174" he="46" />为与所述第一音频对象类型的所述音频对象相关联的下混值;其中,n<sub>0</sub>至<img file="FDA0000378671740000033.GIF" wi="163" he="51" />为与所述第一音频对象类型的所述音频对象相关联的下混值;其中,所述对象分离器被配置为计算所述预测系数<img file="FDA0000378671740000034.GIF" wi="74" he="59" />及<img file="FDA0000378671740000035.GIF" wi="69" he="59" />为<maths num="0002"><![CDATA[<math><mrow><msub><mover><mi>c</mi><mo>~</mo></mover><mrow><mi>j</mi><mo>,</mo><mn>0</mn></mrow></msub><mo>=</mo><mfrac><mrow><msub><mi>P</mi><mrow><mi>LoCo</mi><mo>,</mo><mi>j</mi></mrow></msub><msub><mi>P</mi><mi>Ro</mi></msub><mo>-</mo><msub><mi>P</mi><mrow><mi>RoCo</mi><mo>,</mo><mi>j</mi></mrow></msub><msub><mi>P</mi><mi>LoRo</mi></msub></mrow><mrow><msub><mi>P</mi><mi>Lo</mi></msub><msub><mi>P</mi><mi>Ro</mi></msub><mo>-</mo><msubsup><mi>P</mi><mi>LoRo</mi><mn>2</mn></msubsup></mrow></mfrac></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><msub><mover><mi>c</mi><mo>~</mo></mover><mrow><mi>j</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>=</mo><mfrac><mrow><msub><mi>P</mi><mrow><mi>RoCo</mi><mo>,</mo><mi>j</mi></mrow></msub><msub><mi>P</mi><mi>Lo</mi></msub><mo>-</mo><msub><mi>P</mi><mrow><mi>LoCo</mi><mo>,</mo><mi>j</mi></mrow></msub><msub><mi>P</mi><mi>LoRo</mi></msub></mrow><mrow><msub><mi>P</mi><mi>Lo</mi></msub><msub><mi>P</mi><mi>Ro</mi></msub><mo>-</mo><msubsup><mi>P</mi><mi>LoRo</mi><mn>2</mn></msubsup></mrow></mfrac><mo>;</mo></mrow></math>]]></maths>及其中,所述对象分离器被配置为使用约束演绎法则而自所述预测系数<img file="FDA0000378671740000038.GIF" wi="74" he="60" />及<img file="FDA0000378671740000039.GIF" wi="69" he="60" />导出受约束的预测系数c<sub>j,0</sub>及c<sub>j,1</sub>,或使用所述预测系数<img file="FDA00003786717400000310.GIF" wi="75" he="60" />及<img file="FDA00003786717400000311.GIF" wi="69" he="60" />作为所述预测系数c<sub>j,0</sub>及c<sub>j,1</sub>;其中,能量P<sub>Lo</sub>、P<sub>Ro</sub>、P<sub>LoRo</sub>、P<sub>LoCo,j</sub>及P<sub>RoCo,j</sub>被定义为<maths num="0004"><![CDATA[<math><mrow><msub><mi>P</mi><mi>Lo</mi></msub><mo>=</mo><msub><mi>OLD</mi><mi>L</mi></msub><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>m</mi><mi>j</mi></msub><msub><mi>m</mi><mi>k</mi></msub><msub><mi>e</mi><mrow><mi>j</mi><mo>,</mo><mi>k</mi></mrow></msub></mrow></math>]]></maths><maths num="0005"><![CDATA[<math><mrow><msub><mi>P</mi><mi>Ro</mi></msub><mo>=</mo><msub><mi>OLD</mi><mi>R</mi></msub><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>n</mi><mi>j</mi></msub><msub><mi>n</mi><mi>k</mi></msub><msub><mi>e</mi><mrow><mi>j</mi><mo>,</mo><mi>k</mi></mrow></msub></mrow></math>]]></maths><maths num="0006"><![CDATA[<math><mrow><msub><mi>P</mi><mi>LoRo</mi></msub><mo>=</mo><msub><mi>e</mi><mrow><mi>L</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>m</mi><mi>j</mi></msub><msub><mi>n</mi><mi>k</mi></msub><msub><mi>e</mi><mrow><mi>j</mi><mo>,</mo><mi>k</mi></mrow></msub></mrow></math>]]></maths><maths num="0007"><![CDATA[<math><mrow><msub><mi>P</mi><mrow><mi>LoCo</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><msub><mi>m</mi><mi>j</mi></msub><msub><mi>OLD</mi><mi>L</mi></msub><mo>+</mo><msub><mi>n</mi><mi>j</mi></msub><msub><mi>e</mi><mrow><mi>L</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>-</mo><msub><mi>m</mi><mi>j</mi></msub><msub><mi>OLD</mi><mi>j</mi></msub><mo>-</mo><munderover><munder><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow></munder><mrow><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mrow><mrow><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>m</mi><mi>i</mi></msub><msub><mi>e</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub></mrow></math>]]></maths><maths num="0008"><![CDATA[<math><mrow><msub><mi>P</mi><mrow><mi>RoCo</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><msub><mi>n</mi><mi>j</mi></msub><msub><mi>OLD</mi><mi>R</mi></msub><mo>+</mo><msub><mi>m</mi><mi>j</mi></msub><msub><mi>e</mi><mrow><mi>L</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>-</mo><msub><mi>n</mi><mi>j</mi></msub><msub><mi>OLD</mi><mi>j</mi></msub><mo>-</mo><munderover><munder><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow></munder><mrow><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mrow><mrow><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>n</mi><mi>i</mi></msub><msub><mi>e</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub></mrow></math>]]></maths>其中,参数OLD<sub>L</sub>、OLD<sub>R</sub>及IOC<sub>L,R</sub>与第二音频对象类型的音频对象相对应,且根据<maths num="0009"><![CDATA[<math><mrow><msub><mi>OLD</mi><mi>L</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><msubsup><mi>d</mi><mrow><mn>0</mn><mo>,</mo><mi>i</mi></mrow><mn>2</mn></msubsup><msub><mi>OLD</mi><mi>i</mi></msub><mo>,</mo></mrow></math>]]></maths><maths num="0010"><![CDATA[<math><mrow><msub><mi>OLD</mi><mi>R</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><msub><mi>N</mi><mi>EAO</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><msubsup><mi>d</mi><mrow><mn>1</mn><mo>,</mo><mi>i</mi></mrow><mn>2</mn></msubsup><msub><mi>OLD</mi><mi>i</mi></msub><mo>,</mo></mrow></math>]]></maths><maths num="0011"><![CDATA[<math><mrow><msub><mi>IOC</mi><mrow><mi>L</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><msub><mi>IOC</mi><mn>0,1</mn></msub><mo>,</mo></mtd><mtd><mi>N</mi><mo>-</mo><msub><mi>N</mi><mi>EAO</mi></msub><mo>=</mo><mn>2</mn><mo>,</mo></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo></mtd><mtd><mi>otherwise</mi><mo>.</mo></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>定义,其中,d<sub>0,i</sub>及d<sub>1,i</sub>为与所述第二音频对象类型的所述音频对象相关联的下混值;其中,OLD<sub>i</sub>为与所述第二音频对象类型的所述音频对象相关联的对象位准差值;其中,N为音频对象的总数;其中,N<sub>EAO</sub>为所述第一音频对象类型的音频对象的数目;其中,IOC<sub>0,1</sub>为与所述第二音频对象类型的一对音频对象相关联的对象间相关值;其中,e<sub>i,j</sub>及e<sub>L,R</sub>为自对象位准差参数及对象间相关性参数所导出的协方差值;以及其中,e<sub>i,j</sub>与所述第一音频对象类型的一对音频对象相关联,而e<sub>L,R</sub>与所述第二音频对象类型的一对音频对象相关联。
地址 德国慕尼黑