发明名称 编码声频信号之方法及电脑可读取媒体、解码声频信号之方法及电脑可读取媒体、编码解码器、以及端点装置
摘要
申请公布号 TWI347589 申请公布日期 2011.08.21
申请号 TW096132103 申请日期 2007.08.29
申请人 宝力康公司 发明人 谢明杰;朱彼得
分类号 G10L19/00;H03M7/40 主分类号 G10L19/00
代理机构 代理人 陈长文 台北市松山区敦化北路201号7楼
主权项 一种编码一声频信号的方法,该方法包括:将该声频信号之时域样本之一讯框变换成频域,从而形成变换系数之一长讯框;将该声频信号之该等时域样本的该讯框之n个部分变换成频域,从而形成变换系数之n个短讯框;其中时域样本之该讯框具有一第一长度(L);其中时域样本之该讯框之每一个部分具有一第二长度(S);其中L=nxS;以及其中n系一整数;编组变换系数之该长讯框的一变换系数集以及变换系数之该n个短讯框的一变换系数集,以形成一变换系数组合集;量化该变换系数组合集,以形成该量化的变换系数组合集之一量化索引集;以及编码该量化的变换系数组合集之该等量化索引。如请求项1之方法,其中该等变换动作包括应用一调变重叠变换(MLT)。如请求项1之方法,其中该取样动作系采用约48 kHz的频率。如请求项1之方法,其中该变换系数组合集包括一第一频率频宽的该长讯框之变换系数以及一第二频率频宽的该n个短讯框之变换系数。如请求项4之方法,其中该第一频率频宽及该第二频率频宽重叠。如请求项4之方法,其中该第一频率频宽具有约800 Hz至约7 kHz之范围内的一上限。如请求项4之方法,其中该第一频率频宽包括最高约7 kHz的声频频率;以及其中该第二频率频宽包括约6.8 kHz至约22 kHz之范围内的声频频率。如请求项1之方法,其进一步包括:侦测该声频信号是否包括一打击乐器型信号。如请求项8之方法,其中该侦测动作包括:决定最高约10 kHz之一频率频宽内的该等长变换系数之一平均梯度斜坡是否超过一预定义斜坡临限值;决定变换系数之该长讯框之一第一变换系数是否为变换系数之该长讯框之一最大值;以及决定变换系数之该长讯框的该等变换系数之一零交越速率是否小于一预定义速率临限值。如请求项8之方法,其中该变换系数组合集包括具有一第一频率频宽的该长讯框之变换系数以及具有一第二频率频宽的该n个短讯框之变换系数;其中,若侦测到该打击乐器型信号,则该第一频率频宽包括最高约800 Hz的声频频率;以及其中,若侦测到该打击乐器型信号,则该第二频率频宽包括约600 Hz至约22 kHz之范围内的声频频率。如请求项1之方法,其中该编码动作包括霍夫曼编码。如请求项1之方法,其进一步包括:将该系数组合集编组成复数个群组,其中每一群组包含复数个子讯框,而且其中每一个子讯框包含某一数目个系数;根据该等子讯框之各者之均方根(rms)决定用于该子讯框之一范数;量化用于每一个子讯框的该均方根;藉由将该子讯框内的每一个系数除以该子讯框之该量化均方根来正规化每一个子讯框之该等系数;量化每一个子讯框之该等系数;维持用于每一群组的子讯框之一霍夫曼编码旗标;维持用以编码每一群组之固定数目个位元;计算将霍夫曼编码用于每一群组所必需的一位元数目;若使用霍夫曼编码所必需的该位元数目系少于用于该群组的位元之该固定数目,则设定该霍夫曼旗标并使用霍夫曼编码;以及若使用霍夫曼编码所必需的该位元数目并非少于用于该子群组的位元之该固定数目,则清除该霍夫曼旗标并使用固定数目的位元之编码。如请求项1之方法,其进一步包括:将该系数组合集编组成复数个群组,其中每一群组包含复数个子讯框,而且其中每一个讯框包含某一数目个系数;根据该等子讯框之各者之rms均方根决定用于该子讯框之一范数;量化用于每一个子讯框的该均方根以形成用于每一个范数的一量化索引;以及若用于霍夫曼编码的位元之一总数目系少于分配用于范数量化的位元之一总数目,则对用于每一个范数的该量化索引进行霍夫曼编码。如请求项1之方法,其进一步包括:将该系数组合集编组成复数个群组,其中每一群组包含复数个子讯框,而且其中每一个讯框包含某一数目个系数;根据该等子讯框之各者之rms均方根决定用于该子讯框之一范数;量化用于每一个子讯框的该均方根;以及根据每一个子讯框之该量化均方根来动态地分配可用位元给该子讯框。一种电脑可读取媒体,其具有体现在该电脑可读取储存媒体上之一程式,该程式可由一机器执行以执行如请求项1之方法。一种解码代表一声频信号之一编码位元流的方法,该方法包括:解码该编码位元流之一部分以形成用于复数个群组的变换系数之量化索引;解量化用于该个复数群组的变换系数之该等量化索引;将该等变换系数分成一长讯框系数集及n个短讯框系数集;将该长讯框系数集从频域转换成时域以形成一长时域信号;将该n个短讯框系数集从频域转换成时域以形成一系列n个短时域信号;其中该长时域信号具有一第一长度(L);其中每一个短长时域信号具有一第二长度(S);其中L=n×S;以及其中n系一整数;以及组合该长时域信号及该系列n个短时域信号以形成该声频信号。如请求项16之方法,其中该等长讯框系数系在一第一频率频宽内;以及其中该等短讯框系数系在一第二频率频宽内。如请求项17之方法,其中该第一频率频宽具有约800 Hz至约7 kHz之范围内的一上限。如请求项17之方法,其中该第一频率频宽包括最高约7 kHz的声频频率;以及其中该第二频率频宽包括约6.8 kHz至约22 kHz之范围内的声频频率。如请求项17之方法,其中该第一频率频宽包括最高约800 Hz的声频频率;以及其中该第二频率频宽包括约600 Hz至约22 kHz之范围内的声频频率。如请求项16之方法,其进一步包括:解码该编码位元流之一第二部分以形成用于每一个子讯框之一范数的一量化索引;以及解量化用于每一个子讯框的该量化索引。如请求项21之方法,其进一步包括:依据每一个子讯框之该量化范数来动态地分配可用位元给该子讯框。如请求项21之方法,其进一步包括:若该编码的位元流包含已将霍夫曼编码用以编码该等范数之一指示项,则决定欲分配给该等范数的一位元数目;以及对该等范数进行霍夫曼解码。如请求项16之方法,其进一步包括:若该编码的位元流包含已将霍夫曼编码用以编码一特定群组的子讯框之一指示项,则决定欲分配给该特定群组的子讯框的一位元数目;以及对系数之该特定群组的子讯框进行霍夫曼解码。一种电脑可读取媒体,其具有体现在该电脑可读取储存媒体上之一程式,该程式可由一机器执行以执行如请求项16之方法。一种22 kHz声频编码解码器,其包括:一编码器,其包括:一第一变换模组,其可操作以将一声频信号之时域样本之一讯框变换成频域,从而形成变换系数之一长讯框;一第二变化模组,其可操作以将该声频信号之等时域样本的该讯框之n个部分变换成频域,从而形成变换系数之n个短讯框;其中时域样本之该讯框具有一第一长度(L);其中时域样本之该讯框之每一个部分具有一第二长度(S);其中L=n×S;以及其中n系一整数;一组合器模组,其可操作以组合变换系数之该长讯框之一变换系数集以及变换系数之该n个短讯框之一变换系数集,从而形成一变换系数组合集;一量化模组,其可操作以量化该变换系数组合集以形成该量化的变换系数组合集之一量化索引集;以及一编码模组,其可操作以编码该量化的变换系数组合集之该等量化索引;以及一解码器,其包括:一解码模组,其可操作以解码一编码位元流之一部分,从而形成用于复数个群组的变换系数之量化索引;一解量化模组,其可操作以解量化用于该复数个群组的变换系数之该等量化索引;一分离器模组,其可操作以将该等变换系数分成一长讯框系数集及n个短讯框系数集;一第一反向变换模组,其可操作以将该长讯框系数集从频域转换成时域,从而形成一长时域信号;一第二反向变换模组,其可操作以将该n个短讯框系数集从频域转换成时域,从而形成一系列n个短时域信号;以及一汇总模组,其用以组合该长时域信号及该系列n个短时域信号。如请求项26之编码解码器,其中该变换系数组合集包括一第一频率频宽的该长讯框之变换系数以及一第二频率频宽的该n个短讯框之变换系数。如请求项27之编码解码器,其中该第一频率频宽具有约800 Hz至约7 kHz之范围内的一上限。如请求项27之编码解码器,其中该第一频率频宽包括最高约7 kHz的声频频率;以及其中该第二频率频宽包括约6.8 kHz至约22 kHz之范围内的声频频率。如请求项27之编码解码器,其中该第一频率频宽包括最高约800 Hz的声频频率;以及其中该第二频率频宽包括约600 Hz至约22 kHz之范围内的声频频率。如请求项26之编码解码器,其进一步包括:一模组,其可操作以根据变换系数之该长讯框的一或多个特征来侦测该声频信号是否包括一打击乐器型信号。如请求项26之编码解码器,其中该第一变换模组包括一第一调变重叠变换(MLT)模组;以及其中该第二变换模组包括一第二MLT模组。如请求项26之编码解码器,其中该编码器进一步包括:一范数量化器模组,其可操作以量化每一个子讯框之一振幅包络;一范数编码模组,其可操作以编码该等子讯框之该振幅包络的该等量化索引;以及一适应性位元分配模组,其可操作以分配可用位元给变换系数的子讯框。如请求项26之编码解码器,其中该解码器进一步包括:一范数解码模组,其可操作以解码该编码位元流之一第二部分,从而形成用于该等子讯框之每一个的每一个振幅包络之一量化索引;一解量化模组,其可操作以解量化用于该等子讯框之该等振幅包络的该等量化索引;以及一适应性位元分配模组,其可操作以分配可用位元给变换系数之子讯框。一种端点装置,其包括:一声频输入/输出介面;一麦克风,其可采用通信方式耦合至该声频输入/输出介面;一扬声器,其可采用通信方式耦合至该声频输入/输出介面;以及一22 kHz声频编码解码器,其可采用通信方式耦合至该声频输入/输出介面;其中该22 kHz声频编码解码器包括:一编码器,其包括:一第一变换模组,其可操作以将一声频信号之时域样本之一讯框变换成频域,从而形成变换系数之一长讯框;一第二变换模组,其可操作以将该声频信号之等时域样本的该讯框之n个部分变换成频域,从而形成变换系数之n个短讯框;其中时域样本之该讯框具有一第一长度(L);其中时域样本之该讯框之每一个部分具有一第二长度(S);其中L=n×S;以及其中n系一整数;一组合器模组,其可操作以组合变换系数之该长讯框之一变换系数集以及变换系数之该n个短讯框之一变换系数集,从而形成一变换系数组合集;一量化模组,其可操作以量化该变换系数组合集以形成该量化的变换系数组合集之一量化索引集;以及一编码模组,其可操作以编码该量化的变换系数组合集之该等量化索引;以及一解码器,其包括:一解码模组,其可操作以解码一编码位元流之一部分,从而形成用于复数个群组的变换系数之量化索引;一解量化模组,其可操作以解量化用于该复数个群组的变换系数之该等量化索引;一分离器模组,其可操作以将该等变换系数分成一长讯框系数集及n个短讯框系数集;一第一反向变换模组,其可操作以将该长讯框系数集从频域转换成时域,从而形成一长时域信号;一第二反向变换模组,其可操作以将该n个短讯框系数集从频域转换成时域,从而形成一系列n个短时域信号;以及一汇总模组,其用以组合该长时域信号及该系列n个短时域信号。如请求项35之端点装置,其进一步包括:一汇流排,其可采用通信方式耦合至该声频输入/输出介面;一视讯输入/输出介面,其可采用通信方式耦合至该汇流排;一摄影机,其可采用通信方式耦合至该视讯输入/输出介面;以及一显示装置,其可采用通信方式耦合至该视讯输入/输出介面。如请求项35之端点装置,其中该编码器进一步包括:一范数量化器模组,其可操作以量化每一个子讯框之一振幅包络;一范数编码模组,其可操作以编码该等子讯框之该振幅包络的该等量化索引;以及一适应性位元分配模组,其可操作以分配可用位元给变换系数的子讯框。如请求项35之端点装置,其中该解码器进一步包括:一范数解码模组,其可操作以解码该编码位元流之一第二部分,从而形成用于该等子讯框之每一个的每一个振幅包络之一量化索引;一解量化模组,其可操作以解量化用于该等子讯框之该等振幅包络的该等量化索引;以及一适应性位元分配模组,其可操作以分配可用位元给变换系数之子讯框。
地址 美国