基于深度神经网络的音频带宽扩展编码解码方法及装置,申请号CN201510549716.1-传众专利搜索

发明名称	基于深度神经网络的音频带宽扩展编码解码方法及装置
摘要	本发明公开了一种基于深度神经网络的音频带宽扩展编码解码方法，装置包括编码单元与解码单元。编码单元包络预处理模块、高频参数提取模块、低频编码模块、码流生成模块；解码单元包括码流输入模块、高频参数解码模块、低频信号解码模块、自编码器参数预测模块、深度神经网络精细结构预测模块、高频信号重构模块、信号合成模块。本发明首先利用信号低频部分与高频部分存在的自相关性，使用深度神经网络预测的方法，预测高频部分的精细结构。再将精细结构与编码端得到高频部分的边信息相结合，重构出信号的高频部分。最后将信号高频部分与低频部分融合，得到最终的恢复信号。本发明相比传统方法在码率上大幅降低，且音质与传统方法相当。
申请公布号	CN105070293A	申请公布日期	2015.11.18
申请号	CN201510549716.1	申请日期	2015.08.31
申请人	武汉大学	发明人	胡瑞敏;姜林;胡霞;王晓晨;张茂胜;涂卫平;李登实
分类号	G10L19/032(2013.01)I;G10L19/038(2013.01)I	主分类号	G10L19/032(2013.01)I
代理机构	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人	薛玲
主权项	基于深度神经网络的音频带宽扩展编码解码方法，其特征在于，包括编码方法和解码方法；所述的编码方法，其具体实现包括以下步骤：步骤A1：将输入待处理信号进行分帧处理，再滤除频率在50Hz以下的超低频部分；处理后的信号分别通过高通滤波、低通滤波，最终得到信号的高频部分S<sub>HF</sub>与信号的低频部分S<sub>LF</sub>；步骤A2：将步骤1所得信号高频部分S<sub>HF</sub>进行修正离散余弦变换，得到信号高频部分的频域系数<img file="FDA0000793516630000011.GIF" wi="167" he="84" />然后对该频域系数划分子带，进行包络提取得到高频频域包络参数Env(i)；步骤A3：将步骤1所得信号低频部分S<sub>LF</sub>通过低频编码器进行编码，得到低频编码参数；步骤A4：将步骤A2中得到的高频频域包络参数Env(i)通过矢量量化，与步骤A3中得到的低频编码参数同时传送至码流；所述的解码方法，其具体实现包括以下步骤：步骤B1：从输入码流中分别提取已通过矢量量化的高频频域包络参、低频编码参数；步骤B2：解码已通过矢量量化的高频频域包络参数Env(i)，得到高频部分的频域包络信息Env(i)；步骤B3：使用与步骤A3中采用的低频编码对应的方法解码，得到信号低频部分时域信息S'<sub>LF</sub>和低频规范化系数<img file="FDA0000793516630000012.GIF" wi="108" he="78" />步骤B4：使用逐层贪婪训练方法，训练得到自编码器的权重参数θ＝{W<sup>(0)</sup>,W<sup>(1)</sup>,…,W<sup>(k)</sup>,b<sup>(1)</sup>,b<sup>(2)</sup>,…,b<sup>(k)</sup>}，并确定迭代次数k；其中，W<sup>(0)</sup>∈R<sup>m1×n</sup>表示权重矩阵，b<sup>(0)</sup>∈R<sup>m1</sup>表示偏置矢量，R<sup>m×n</sup>表示m×n的实数矩阵；步骤B5：将步骤B3解码得到的低频规范化系数<img file="FDA0000793516630000013.GIF" wi="76" he="79" />输入到第一个隐藏层h<sub>1</sub>，再与步骤B4中得到的权重参数θ对应相乘相加，最后利用非线性激活函数f(·)，得到下一层每一单元的激活值<img file="FDA0000793516630000028.GIF" wi="95" he="74" />依次递推，得到自编码器网络的输出y∈R<sup>n</sup>，也就是最终信号高频部分的精细结构信息Fine_stru(i,j)；其中R<sup>n</sup>表示1×n维实数矩阵；步骤B6：将步骤B5中得到的信号高频部分的精细结构信息Fine_stru(i,j)与步骤B2中计算得到的信号高频部分的频域包络信息Env(i)相乘，生成信号高频部分的频域信息；步骤B7：将步骤B6中得到的信号高频部分的频域信息进行修正离散余弦变换的逆变换，得到信号高频部分时域信息S'<sub>HF</sub>，再与步骤B3中得到的解码后的信号低频部分时域信息S'<sub>LF</sub>叠加，利用S<sub>l</sub>'<sub>ater</sub>＝S'<sub>LF</sub>+S'<sub>HF</sub>,得到最终的输出信号。
地址	430072 湖北省武汉市武昌区珞珈山武汉大学