发明名称 基于组稀疏低秩表达的语音信号增强方法
摘要 基于组稀疏低秩表达的语音信号增强方法,针对带噪语音信号进行以下操作:首先,根据预设的采样频率对语音信号进行采样,形成对应的向量化表达,并按不同主题对语音信号进行分组;其次,利用同主题语音信号间的组稀疏结构特性,通过低秩矩阵分解对带噪语音信号实现噪声分离,并得到语音信号的组稀疏低秩表达;最后,通过获得的低秩表达对原始带噪信号进行重构,从而输出清晰的增强语音信号。本发明的优点在于:有效地考虑了同主题语音信号间的组稀疏结构特性,能更好地消除背景噪音并获取更清晰的语音信号,使听者更迅速准确地理解语音内容,可应用于军事通信、网络音频会议和在线电台放送等等。
申请公布号 CN103559886B 申请公布日期 2017.04.12
申请号 CN201310439143.8 申请日期 2013.09.24
申请人 浙江大学 发明人 李平;卜佳俊;陈纯;高珊;王学庆
分类号 G10L21/0208(2013.01)I;G10L21/0272(2013.01)I 主分类号 G10L21/0208(2013.01)I
代理机构 杭州天正专利事务所有限公司 33201 代理人 王兵;黄美娟
主权项 基于组稀疏低秩表达的语音信号增强方法,该方法的特征在于获取不同主题的大量带噪语音信号后,针对带噪语音信号进行以下操作:1)根据预设的采样频率f<sub>s</sub>对每个带噪语音信号进行采样,获得m维的向量化表达x∈R<sup>m</sup>,并按照不同主题对语音信号分组;2)利用同主题语音信号间的组稀疏结构特性,通过低秩矩阵分解对带噪语音信号实现噪声分离,并得到语音信号的组稀疏低秩表达;3)通过获得的低秩表达对原始带噪信号进行重构,从而输出清晰的增强语音信号;步骤1)中所述的按照不同主题对语音信号分组,具体是:11)假设语音信号可分为k个主题,则第c个主题的语音信号矩阵表示为<img file="FDA0001155685170000013.GIF" wi="315" he="62" />其中n<sub>c</sub>为第c个主题的语音信号数目;12)通过按顺序拼接不同主题的信号矩阵块,可构造整体语音信号矩阵X=[X<sup>1</sup>,…,X<sup>k</sup>]∈R<sup>m×n</sup>,其中n=n<sub>1</sub>+n<sub>2</sub>+…+n<sub>k</sub>;步骤2)中所述的利用同主题语音信号间的组稀疏结构特性,通过低秩矩阵分解对带噪语音信号实现噪声分离,并得到语音信号的组稀疏低秩表达,具体是:21)假设第c个主题语音信号的组稀疏低秩表达为Z<sup>c</sup>,则同主题语音信号间的组稀疏结构特征可通过矩阵的l<sub>1,q</sub>范式表征为<img file="FDA0001155685170000011.GIF" wi="328" he="84" />其中<maths num="0001"><math><![CDATA[<mrow><mo>|</mo><mo>|</mo><msup><mi>Z</mi><mi>c</mi></msup><mo>|</mo><msub><mo>|</mo><mrow><mn>1</mn><mo>,</mo><mi>q</mi></mrow></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>c</mi></msub></munderover><mo>|</mo><mo>|</mo><msubsup><mi>z</mi><mi>j</mi><mi>c</mi></msubsup><mo>|</mo><msub><mo>|</mo><mi>q</mi></msub><mo>=</mo><mo>|</mo><mo>|</mo><msubsup><mi>z</mi><mn>1</mn><mi>c</mi></msubsup><mo>|</mo><msub><mo>|</mo><mi>q</mi></msub><mo>+</mo><mn>...</mn><mo>+</mo><mo>|</mo><mo>|</mo><msubsup><mi>z</mi><msub><mi>n</mi><mi>c</mi></msub><mi>c</mi></msubsup><mo>|</mo><msub><mo>|</mo><mi>q</mi></msub></mrow>]]></math><img file="FDA0001155685170000012.GIF" wi="1065" he="221" /></maths>其中,||·||<sub>q</sub>表示向量的l<sub>q</sub>范式,q>0反映了语音信号的组结构特征,第c个主题语音信号的低秩表达<img file="FDA0001155685170000014.GIF" wi="427" he="75" />而列向量<img file="FDA0001155685170000015.GIF" wi="61" he="79" />表示第c个主题中的第j个语音信号对应的低秩表达系数,整体语音信号矩阵的低秩表达为一个块对角矩阵Z=diag(Z<sup>1</sup>,…,Z<sup>k</sup>)∈R<sup>n</sup><sup>×n</sup>;22)设语音信号中的噪声成分表示为矩阵E∈R<sup>m×n</sup>,语音信号的词典为数据矩阵本身X,通过求解下式可实现低秩矩阵分解,即minimize<sub>Z,E</sub> ||Z||<sub>*</sub>+α||Z||<sub>1,q</sub>+λ||E||<sub>1</sub>,subject to X=XZ+E,e<sup>T</sup>Z=e<sup>T</sup>,Z≥0,其中,||Z||<sub>*</sub>表示矩阵Z的核范式,即矩阵Z的奇异值之和,参数α>0可调节组稀疏结构特征的贡献,参数λ>0控制语音信号中的噪声压制程度,e是一个全1的列向量,这样,可以得到语音信号的组稀疏低秩表达Z,同时分离出噪声矩阵E;步骤3)中所述通过获得的低秩表达对原始带噪信号进行重构,具体是:通过上述步骤求得的语音信号对应的组稀疏低秩表达Z与原始带噪语音信号X进行线性乘积,可获得重构后的清晰增强语音信号,即<img file="FDA0001155685170000021.GIF" wi="222" he="71" />
地址 310027 浙江省杭州市西湖区浙大路38号
您可能感兴趣的专利