基于组稀疏低秩表达的语音信号增强方法,申请号CN201310439143.8-传众专利搜索

发明名称	基于组稀疏低秩表达的语音信号增强方法
摘要	基于组稀疏低秩表达的语音信号增强方法，针对带噪语音信号进行以下操作：首先，根据预设的采样频率对语音信号进行采样，形成对应的向量化表达，并按不同主题对语音信号进行分组；其次，利用同主题语音信号间的组稀疏结构特性，通过低秩矩阵分解对带噪语音信号实现噪声分离，并得到语音信号的组稀疏低秩表达；最后，通过获得的低秩表达对原始带噪信号进行重构，从而输出清晰的增强语音信号。本发明的优点在于：有效地考虑了同主题语音信号间的组稀疏结构特性，能更好地消除背景噪音并获取更清晰的语音信号，使听者更迅速准确地理解语音内容，可应用于军事通信、网络音频会议和在线电台放送等等。
申请公布号	CN103559886B	申请公布日期	2017.04.12
申请号	CN201310439143.8	申请日期	2013.09.24
申请人	浙江大学	发明人	李平;卜佳俊;陈纯;高珊;王学庆
分类号	G10L21/0208(2013.01)I;G10L21/0272(2013.01)I	主分类号	G10L21/0208(2013.01)I
代理机构	杭州天正专利事务所有限公司 33201	代理人	王兵;黄美娟
主权项	基于组稀疏低秩表达的语音信号增强方法，该方法的特征在于获取不同主题的大量带噪语音信号后，针对带噪语音信号进行以下操作：1)根据预设的采样频率f<sub>s</sub>对每个带噪语音信号进行采样，获得m维的向量化表达x∈R<sup>m</sup>，并按照不同主题对语音信号分组；2)利用同主题语音信号间的组稀疏结构特性，通过低秩矩阵分解对带噪语音信号实现噪声分离，并得到语音信号的组稀疏低秩表达；3)通过获得的低秩表达对原始带噪信号进行重构，从而输出清晰的增强语音信号；步骤1)中所述的按照不同主题对语音信号分组，具体是：11)假设语音信号可分为k个主题，则第c个主题的语音信号矩阵表示为<img file="FDA0001155685170000013.GIF" wi="315" he="62" />其中n<sub>c</sub>为第c个主题的语音信号数目；12)通过按顺序拼接不同主题的信号矩阵块，可构造整体语音信号矩阵X＝[X<sup>1</sup>，…，X<sup>k</sup>]∈R<sup>m×n</sup>，其中n＝n<sub>1</sub>+n<sub>2</sub>+…+n<sub>k</sub>；步骤2)中所述的利用同主题语音信号间的组稀疏结构特性，通过低秩矩阵分解对带噪语音信号实现噪声分离，并得到语音信号的组稀疏低秩表达，具体是：21)假设第c个主题语音信号的组稀疏低秩表达为Z<sup>c</sup>，则同主题语音信号间的组稀疏结构特征可通过矩阵的l<sub>1，q</sub>范式表征为<img file="FDA0001155685170000011.GIF" wi="328" he="84" />其中<maths num="0001"><math><![CDATA[<mrow><mo>\|</mo><mo>\|</mo><msup><mi>Z</mi><mi>c</mi></msup><mo>\|</mo><msub><mo>\|</mo><mrow><mn>1</mn><mo>,</mo><mi>q</mi></mrow></msub><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>c</mi></msub></munderover><mo>\|</mo><mo>\|</mo><msubsup><mi>z</mi><mi>j</mi><mi>c</mi></msubsup><mo>\|</mo><msub><mo>\|</mo><mi>q</mi></msub><mo>=</mo><mo>\|</mo><mo>\|</mo><msubsup><mi>z</mi><mn>1</mn><mi>c</mi></msubsup><mo>\|</mo><msub><mo>\|</mo><mi>q</mi></msub><mo>+</mo><mn>...</mn><mo>+</mo><mo>\|</mo><mo>\|</mo><msubsup><mi>z</mi><msub><mi>n</mi><mi>c</mi></msub><mi>c</mi></msubsup><mo>\|</mo><msub><mo>\|</mo><mi>q</mi></msub></mrow>]]></math><img file="FDA0001155685170000012.GIF" wi="1065" he="221" /></maths>其中，\|\|·\|\|<sub>q</sub>表示向量的l<sub>q</sub>范式，q＞0反映了语音信号的组结构特征，第c个主题语音信号的低秩表达<img file="FDA0001155685170000014.GIF" wi="427" he="75" />而列向量<img file="FDA0001155685170000015.GIF" wi="61" he="79" />表示第c个主题中的第j个语音信号对应的低秩表达系数，整体语音信号矩阵的低秩表达为一个块对角矩阵Z＝diag(Z<sup>1</sup>，…，Z<sup>k</sup>)∈R<sup>n</sup><sup>×n</sup>；22)设语音信号中的噪声成分表示为矩阵E∈R<sup>m×n</sup>，语音信号的词典为数据矩阵本身X，通过求解下式可实现低秩矩阵分解，即minimize<sub>Z，E</sub> \|\|Z\|\|<sub></sub>+α\|\|Z\|\|<sub>1，q</sub>+λ\|\|E\|\|<sub>1</sub>,subject to X＝XZ+E，e<sup>T</sup>Z＝e<sup>T</sup>，Z≥0，其中，\|\|Z\|\|<sub></sub>表示矩阵Z的核范式，即矩阵Z的奇异值之和，参数α＞0可调节组稀疏结构特征的贡献，参数λ＞0控制语音信号中的噪声压制程度，e是一个全1的列向量，这样，可以得到语音信号的组稀疏低秩表达Z，同时分离出噪声矩阵E；步骤3)中所述通过获得的低秩表达对原始带噪信号进行重构，具体是：通过上述步骤求得的语音信号对应的组稀疏低秩表达Z与原始带噪语音信号X进行线性乘积，可获得重构后的清晰增强语音信号，即<img file="FDA0001155685170000021.GIF" wi="222" he="71" />
地址	310027 浙江省杭州市西湖区浙大路38号