发明名称 基于自适应冗余字典的语音信号稀疏表示方法
摘要 一种基于自适应冗余字典的语音信号稀疏表示算法,包括步骤:1)针对数字语音信号短时自相关函数具有指数衰减的特性,构造基于K-L展开的自适应冗余字典;2)设计自适应冗余字典的语音信号稀疏表示算法。
申请公布号 CN102332268B 申请公布日期 2013.03.13
申请号 CN201110283665.4 申请日期 2011.09.22
申请人 南京工业大学 发明人 王天荆
分类号 G10L19/038(2013.01)I 主分类号 G10L19/038(2013.01)I
代理机构 南京天翼专利代理有限责任公司 32112 代理人 朱戈胜
主权项 1.一种基于自适应冗余字典的语音信号稀疏表示算法,其特征是包括步骤:1)针对数字语音信号短时自相关函数具有指数衰减的特性,构造基于K-L展开的自适应冗余字典;2)设计自适应冗余字典的语音信号稀疏表示算法;所述步骤1)中,假设连续实随机过程{x(t),t∈[0,1]}是二阶矩过程,则其K-L展开式为:<img file="FDA00001730591600011.GIF" wi="295" he="94" />其中,系数<img file="FDA00001730591600012.GIF" wi="319" he="72" />正交K-L基<img file="FDA00001730591600013.GIF" wi="112" he="40" />是自相关函数R<sub>x</sub>(t,u)的特征函数,<img file="FDA00001730591600014.GIF" wi="83" he="41" />和与之对应的特征值λ∈R满足Fredholm积分方程:<img file="FDA00001730591600015.GIF" wi="447" he="72" />于是,x(t)的N项近似式为<img file="FDA00001730591600016.GIF" wi="294" he="100" />由上述K-L展开定义可知,K-L展开的关键是获得自相关函数的特征值和特征函数;针对平稳随机过程的自相关函数在时延较小时较快衰减的特性,考虑指数衰减型自相关函数R<sub>x</sub>(t,u)=r<sub>x</sub>(0)e<sup>-μ|t-u|</sup>,其中参数μ反映了衰减速度和r<sub>x</sub>(0)=var(x(t)),并求解如下的Fredholm积分方程:<img file="FDA00001730591600017.GIF" wi="1149" he="73" />获得一组正交特征函数组<img file="FDA00001730591600018.GIF" wi="516" he="89" />n∈Z-{0};再加入<img file="FDA00001730591600019.GIF" wi="163" he="41" />构建完备的自适应正交K-L基函数组<img file="FDA000017305916000110.GIF" wi="341" he="41" />n∈Z-{0}};离散E中基函数,获得自适应冗余字典:<img file="FDA000017305916000111.GIF" wi="401" he="50" />其中e<sub>n</sub>=[e<sub>n</sub>(1),…,e<sub>n</sub>(i),…e<sub>n</sub>(M)]<sup>T</sup>,<maths num="0001"><![CDATA[<math><mrow><msub><mi>e</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mi>n&pi;</mi><mi>&mu;</mi></mfrac><mi>cos</mi><mrow><mo>(</mo><mfrac><mrow><mi>n&pi;</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow><mo>+</mo><mi>sin</mi><mrow><mo>(</mo><mfrac><mrow><mi>n&pi;</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>(i=1,…,M)和e<sub>0</sub>=[1,…,1]<sup>T</sup>;所述步骤2)中,因为数字语音信号短时自相关函数具有指数衰减的特性,所以可以基于冗余字典<img file="FDA000017305916000113.GIF" wi="29" he="39" />自适应选取K个原子对语音信号x∈R<sup>M</sup>作非线性逼近:<maths num="0002"><![CDATA[<math><mrow><mover><mi>x</mi><mo>~</mo></mover><mo>=</mo><msub><mi>F</mi><mi>K</mi></msub><mi>x</mi><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>n</mi><mo>&Element;</mo><msub><mi>I</mi><mi>K</mi></msub></mrow></munder><mi>&alpha;</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><msub><mi>e</mi><mi>n</mi></msub><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>n</mi><mo>&Element;</mo><msub><mi>I</mi><mi>K</mi></msub></mrow></munder><mfrac><mrow><mo>&lt;</mo><msub><mrow><mi>x</mi><mo>,</mo><mi>e</mi></mrow><mi>n</mi></msub><mo>></mo></mrow><mrow><mo>&lt;</mo><msub><mi>e</mi><mi>n</mi></msub><mo>,</mo><msub><mi>e</mi><mi>n</mi></msub><mo>></mo></mrow></mfrac><msub><mi>e</mi><mi>n</mi></msub><mo>,</mo></mrow></math>]]></maths>其中Card(I<sub>K</sub>)=K,α=[α(1),…,α(N)]<sup>T</sup>为分解系数向量;保留α中绝对值最大的K个α(n)(n∈I<sub>K</sub>),并令α(n)=0<img file="FDA00001730591600022.GIF" wi="157" he="41" />可得到稀疏分解向量<img file="FDA00001730591600023.GIF" wi="28" he="33" />和重构语音信号<img file="FDA00001730591600024.GIF" wi="154" he="41" />则逼近绝对误差为<maths num="0003"><![CDATA[<math><mrow><msub><mi>&epsiv;</mi><mi>K</mi></msub><mo>=</mo><msub><mrow><mo>|</mo><mo>|</mo><mi>x</mi><mo>-</mo><msub><mi>F</mi><mi>K</mi></msub><mi>x</mi><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msub><mo>=</mo><msub><mrow><mo>|</mo><mo>|</mo><mi>x</mi><mo>-</mo><mover><mi>x</mi><mo>~</mo></mover><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msub><mo>.</mo></mrow></math>]]></maths>
地址 210009 江苏省南京市新模范马路5号