发明名称 一种可实现语音重构的彩色复语谱图构建方法
摘要 一种可实现语音重构的彩色复语谱图构建方法,本发明属于语音信号处理技术领域,本发明利用两个色彩通道分别表达傅里叶变换的实部和虚部,在R-G-B彩色空间中,R-B合成颜色的位置坐标对应傅里叶变换的实部和虚部,G值代表实部和虚部的符号组合。由R-G-B颜色配比可以解析出对应复数值的实部与虚部及其符号,通过对语谱图进行图像处理,然后重构语音,实现用图像处理技术对语音增强等目的,进行傅里叶逆变换,近而实现语音重构。<b /><b />
申请公布号 CN104392728A 申请公布日期 2015.03.04
申请号 CN201410688088.0 申请日期 2014.11.26
申请人 东北师范大学 发明人 王双维;李广岩;梁士利;王春蕾;曹晓林;郑彩侠
分类号 G10L21/06(2013.01)I 主分类号 G10L21/06(2013.01)I
代理机构 长春市东师专利事务所 22202 代理人 刘延军;李荣武
主权项 一种可实现语音重构的彩色复语谱图构建方法,运用语音分帧技术<b>,</b>首先对语音信号进行加窗分帧,分为N点的帧信号,设共分为M帧,构成N×M分帧信号矩阵,应用FFT对N×M分帧信号矩阵的各列进行DFT计算,得出相应列的N点DFT,构成N×M时频分析矩阵<img file="88635dest_path_image001.GIF" wi="20" he="17" />,每个元素对应某时刻、某频带的频率特性的实部和虚部,其特征是:<b>1</b><b>)、子矩阵形成模块:</b>设<img file="5775dest_path_image001.GIF" wi="20" he="17" />矩阵所有元素实部或虚部最大绝对值为d,构造2个矩阵<img file="723195dest_path_image002.GIF" wi="80" he="28" /><img file="118405dest_path_image003.GIF" wi="74" he="28" /><img file="870460dest_path_image004.GIF" wi="22" he="18" />和<img file="692922dest_path_image005.GIF" wi="20" he="18" />是分别对应于<img file="399104dest_path_image001.GIF" wi="20" he="17" />矩阵中实部<img file="598004dest_path_image006.GIF" wi="17" he="17" />和虚部<img file="204566dest_path_image007.GIF" wi="16" he="21" />的绝对值归一化子阵,用d作为归一化常数,是为了使<img file="197930dest_path_image004.GIF" wi="22" he="18" />和<img file="889942dest_path_image005.GIF" wi="20" he="18" />动态范围一致;<b>2</b><b>)、符号编码矩阵形成模块:</b>用符号函数分别提取<img file="626954dest_path_image008.GIF" wi="80" he="21" />式中<img file="88022dest_path_image001.GIF" wi="20" he="17" />矩阵中实部<img file="517866dest_path_image006.GIF" wi="17" he="17" />和虚部<img file="195710dest_path_image007.GIF" wi="16" he="21" />的符号<img file="470834dest_path_image009.GIF" wi="104" he="22" /><img file="51988dest_path_image010.GIF" wi="97" he="22" />函数<img file="324837dest_path_image011.GIF" wi="102" he="22" />的功能是,x小于0时输出‑1,x,大于0时输出+1,x等于0时输出0,对<img file="53759dest_path_image009.GIF" wi="104" he="22" />、<img file="70256dest_path_image010.GIF" wi="97" he="22" />两式求加权和,即得到实部<img file="24960dest_path_image006.GIF" wi="17" he="17" />和虚部<img file="796607dest_path_image007.GIF" wi="16" he="21" />的符号组合编码<img file="684928dest_path_image012.GIF" wi="109" he="20" />上式的符号组合编码结果见表1,表1中9个计算结果标志了实部和虚部符号组合的9种状态,为了利用G通道将符号组合编码可视化,还要将表1结果零点平移并归一化,归一化由下式<img file="567434dest_path_image013.GIF" wi="125" he="22" />由上式式可知,<img file="857601dest_path_image014.GIF" wi="25" he="20" />的取值在0~0.01之间,结果见表2,用800做归一化常数,是使G通道的最大值远小于R通道和B通道的值,使在语谱图可视化时G通道的绿色在视觉上不干扰R‑B二原色图像的效果;表1  实部<img file="800149dest_path_image006.GIF" wi="17" he="17" />和虚部<img file="175767dest_path_image007.GIF" wi="16" he="21" />符号组合编码<img file="596384dest_path_image016.GIF" wi="611" he="314" /> 表2  实部<img file="505172dest_path_image006.GIF" wi="17" he="17" />和虚部<img file="618621dest_path_image007.GIF" wi="16" he="21" />符号组合的归一化编码<img file="481535dest_path_image018.GIF" wi="611" he="314" />;<b>3</b><b>)、RGB</b><b>彩色模型驱动矩阵形成及可视化模块:</b>构造一个3维矩阵<img file="705843dest_path_image019.GIF" wi="17" he="17" />,实部绝对值归一化子矩阵<img file="705023dest_path_image004.GIF" wi="22" he="18" />作为层数维的第1层,虚部绝对值归一化子矩阵<img file="989374dest_path_image020.GIF" wi="21" he="22" />作为层数维的第3层,符号组合编码矩阵<img file="339584dest_path_image014.GIF" wi="25" he="20" />作为层数维的第2层 ,将3维矩阵<img file="367583dest_path_image019.GIF" wi="17" he="17" />作为RGB彩色模型的驱动矩阵,形成彩色复语谱图,其中实部归一化绝对值子矩阵<img file="988313dest_path_image004.GIF" wi="22" he="18" />对应红色通道R,虚部归一化绝对值子矩阵<img file="177986dest_path_image020.GIF" wi="21" he="22" />对应蓝色通道B, 符号组合编码矩阵<img file="15492dest_path_image014.GIF" wi="25" he="20" />对应绿色通道G,由于G通道数值远小于R通道和B通道,所以彩色复语谱图在视觉上体现为R‑B二原色彩色图;<b>4</b><b>)、频域子阵提取模块:</b>将图像处理后的二原色复语谱图所对应的3维矩阵中的第1层和第3层分别提取为<img file="581603dest_path_image004.GIF" wi="22" he="18" />和<img file="820954dest_path_image005.GIF" wi="20" he="18" />两个矩阵待用;<b>5</b><b>)、符号解码模块:</b>将G通道符号组合编码取出形成归一化符号组合编码矩阵<img file="181528dest_path_image014.GIF" wi="25" he="20" />(1)实部符号解码:首先由下式实现符号组合编码矩阵复原           <img file="506330dest_path_image021.GIF" wi="161" he="22" />则实部符号矩阵<img file="876132dest_path_image022.GIF" wi="236" he="22" />上式中<img file="202946dest_path_image023.GIF" wi="126" he="25" />是阶跃函数,当<img file="608836dest_path_image024.GIF" wi="45" he="25" />时,<img file="782329dest_path_image025.GIF" wi="69" he="22" />,当<img file="730693dest_path_image026.GIF" wi="45" he="25" />时,<img file="698649dest_path_image027.GIF" wi="77" he="22" />,当<img file="732464dest_path_image028.GIF" wi="45" he="25" />时,<img file="444068dest_path_image029.GIF" wi="80" he="22" />,<img file="246939dest_path_image022.GIF" wi="236" he="22" />式的结果是:当<img file="385796dest_path_image030.GIF" wi="82" he="22" />时对应实部符号为正,<img file="402513dest_path_image031.GIF" wi="24" he="21" />的结果为+1;当<img file="652229dest_path_image032.GIF" wi="116" he="22" />时对应实部符号为负,<img file="575185dest_path_image031.GIF" wi="24" he="21" />的结果为‑1;当<img file="884944dest_path_image033.GIF" wi="100" he="22" />时对应实部符号为零,<img file="893351dest_path_image031.GIF" wi="24" he="21" />的结果为0;(2)虚部符号解码:利用实部符号解码结果<img file="946758dest_path_image034.GIF" wi="110" he="22" />分析上式的结果,当<img file="724221dest_path_image035.GIF" wi="93" he="22" />时对应虚部符号为正,此时<img file="204881dest_path_image036.GIF" wi="102" he="22" />,这样<img file="933540dest_path_image034.GIF" wi="110" he="22" />式的计算结果分别为<img file="790638dest_path_image037.GIF" wi="52" he="22" />、<img file="422608dest_path_image038.GIF" wi="50" he="22" />和<img file="74169dest_path_image039.GIF" wi="86" he="22" />,均为+1,余类推;<b>6</b><b>)、时频特性矩阵形成模块:</b>实部子矩阵和虚部子矩阵分别由<img file="119485dest_path_image040.GIF" wi="90" he="22" />和<img file="452378dest_path_image041.GIF" wi="82" he="22" />生成,则频域特性矩阵<img file="1171dest_path_image042.GIF" wi="93" he="21" />;应用FFT对<img file="26895dest_path_image042.GIF" wi="93" he="21" />进行列傅里叶逆变换,形成处理后的语音信号分帧矩阵<img file="293929dest_path_image043.GIF" wi="22" he="22" />,将<img file="931977dest_path_image043.GIF" wi="22" he="22" />各列首尾相接,构成一维语音序列,能够实现语音重构。
地址 130024 吉林省长春市人民大街5268号