主权项 |
基于深度神经网络的音频带宽扩展编码解码方法,其特征在于,包括编码方法和解码方法;所述的编码方法,其具体实现包括以下步骤:步骤A1:将输入待处理信号进行分帧处理,再滤除频率在50Hz以下的超低频部分;处理后的信号分别通过高通滤波、低通滤波,最终得到信号的高频部分S<sub>HF</sub>与信号的低频部分S<sub>LF</sub>;步骤A2:将步骤1所得信号高频部分S<sub>HF</sub>进行修正离散余弦变换,得到信号高频部分的频域系数<img file="FDA0000793516630000011.GIF" wi="167" he="84" />然后对该频域系数划分子带,进行包络提取得到高频频域包络参数Env(i);步骤A3:将步骤1所得信号低频部分S<sub>LF</sub>通过低频编码器进行编码,得到低频编码参数;步骤A4:将步骤A2中得到的高频频域包络参数Env(i)通过矢量量化,与步骤A3中得到的低频编码参数同时传送至码流;所述的解码方法,其具体实现包括以下步骤:步骤B1:从输入码流中分别提取已通过矢量量化的高频频域包络参、低频编码参数;步骤B2:解码已通过矢量量化的高频频域包络参数Env(i),得到高频部分的频域包络信息Env(i);步骤B3:使用与步骤A3中采用的低频编码对应的方法解码,得到信号低频部分时域信息S'<sub>LF</sub>和低频规范化系数<img file="FDA0000793516630000012.GIF" wi="108" he="78" />步骤B4:使用逐层贪婪训练方法,训练得到自编码器的权重参数θ={W<sup>(0)</sup>,W<sup>(1)</sup>,…,W<sup>(k)</sup>,b<sup>(1)</sup>,b<sup>(2)</sup>,…,b<sup>(k)</sup>},并确定迭代次数k;其中,W<sup>(0)</sup>∈R<sup>m1×n</sup>表示权重矩阵,b<sup>(0)</sup>∈R<sup>m1</sup>表示偏置矢量,R<sup>m×n</sup>表示m×n的实数矩阵;步骤B5:将步骤B3解码得到的低频规范化系数<img file="FDA0000793516630000013.GIF" wi="76" he="79" />输入到第一个隐藏层h<sub>1</sub>,再与步骤B4中得到的权重参数θ对应相乘相加,最后利用非线性激活函数f(·),得到下一层每一单元的激活值<img file="FDA0000793516630000028.GIF" wi="95" he="74" />依次递推,得到自编码器网络的输出y∈R<sup>n</sup>,也就是最终信号高频部分的精细结构信息Fine_stru(i,j);其中R<sup>n</sup>表示1×n维实数矩阵;步骤B6:将步骤B5中得到的信号高频部分的精细结构信息Fine_stru(i,j)与步骤B2中计算得到的信号高频部分的频域包络信息Env(i)相乘,生成信号高频部分的频域信息;步骤B7:将步骤B6中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换,得到信号高频部分时域信息S'<sub>HF</sub>,再与步骤B3中得到的解码后的信号低频部分时域信息S'<sub>LF</sub>叠加,利用S<sub>l</sub>'<sub>ater</sub>=S'<sub>LF</sub>+S'<sub>HF</sub>,得到最终的输出信号。 |