发明名称 用于提高三维音频空间参数压缩率的编解码方法及系统
摘要 本发明提供了用于提高三维音频空间参数压缩率的编解码方法及系统,本发明在编码时输入三维音频的音频信号、三维音频的空间边信息和空间参数所属音频对象的编号,编码时依次对空间参数进行聚类、量化、帧内编码、帧间差分编码;解码时依次进行帧间差分解码、帧内解码、反量化、空间参数映射;本发明基于同一声源同一帧内的不同子带空间参数具有相似性的特点,采用空间参数聚类的方法来提高三维音频的空间参数的压缩率,可以得到更高的三维音频空间参数压缩率。
申请公布号 CN106023999A 申请公布日期 2016.10.12
申请号 CN201610541939.8 申请日期 2016.07.11
申请人 武汉大学 发明人 胡瑞敏;杨乘;王晓晨;杜鹏慧;苏柳月;武庭照;陈玮;杨玉红
分类号 G10L19/008(2013.01)I 主分类号 G10L19/008(2013.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 张火春
主权项 一种用于提高三维音频空间参数压缩率的编解码方法,其特征在于,包括编码过程和解码过程,所述编码过程包括以下步骤:步骤C1,输入包括包含n个对象的三维音频信号、三维音频空间参数以及空间参数所属音频对象的编号,将三维音频时域信号变换到频域,具体如下,设三维音频的时域信号为s(t),所述的s(t)包括s<sub>1</sub>(t)、s<sub>2</sub>(t)、s<sub>k</sub>(t)…、s<sub>K</sub>(t),三维音频的空间参数<img file="FDA0001046347450000011.GIF" wi="278" he="55" />所述的<img file="FDA0001046347450000012.GIF" wi="237" he="55" />包括<img file="FDA0001046347450000013.GIF" wi="923" he="55" /><img file="FDA0001046347450000014.GIF" wi="278" he="62" />空间参数所属音频对象的编号为Index(n,f);将三维音频的时域信号s(t)变换到频域,得到三维音频的频域信号S(n,f),所述的S(n,f)包括S<sub>1</sub>(n,f)、S<sub>2</sub>(n,f)、S<sub>k</sub>(n,f)…、S<sub>K</sub>(n,f);其中,s<sub>k</sub>(t)为第k个有向性音频信号的时域表达,t表示时间;S<sub>k</sub>(n,f)为第k个有向性音频信号的频域表达;<img file="FDA0001046347450000015.GIF" wi="254" he="62" />表示第k个有向性音频信号对应的空间参数,θ为水平角,<img file="FDA0001046347450000016.GIF" wi="30" he="44" />为高度角,r为距离边信息;k的取值为1,2,…,K,K为原有的有向性音频信号的总数;Index(n,f)的值为空间参数所属音频对象的编号;n代表帧索引,f代表频率索引;步骤C2,对输入的空间参数进行帧内编码,实现如下,对同一帧内属于同一音频对象的不同频带的空间参数进行聚类;对聚类后的空间参数<img file="FDA0001046347450000017.GIF" wi="234" he="63" />进行量化;对量化后的空间参数进行帧内编码;步骤C3,对空间参数进行帧间编码,生成三维音频编码码流,编码方法为差分编码;所述解码过程包括以下步骤;步骤D1,对空间参数进行帧间解码,解码方法为差分解码;步骤D2,对空间参数进行帧内解码,实现如下,对空间参数进行帧内解码;对帧内解码后的空间参数进行反量化;还原原始的空间参数<img file="FDA0001046347450000018.GIF" wi="267" he="63" />步骤D3,将音频信号的频域表达S’(n,f)变换到时域,得到音频信号的时域表达s’(t),缩所述的S’(n,f)是S(n,f)经过编解码后的信号,所述的s’(t)是s(t)经过编解码后的信号;包含n个对象的音频信号的时域表达s’(t)和步骤D2所得空间参数<img file="FDA0001046347450000019.GIF" wi="249" he="62" />以及原始的空间参数所属音频对象的编号Index(n,f)构成解码后的包含n个对象的三维音频的音频信号,空间参数以及空间参数所属音频对象的编号。
地址 430072 湖北省武汉市武昌区珞珈山武汉大学