基于自适应冗余字典的语音信号稀疏表示方法,申请号CN201110283665.4-传众专利搜索

发明名称	基于自适应冗余字典的语音信号稀疏表示方法
摘要	一种基于自适应冗余字典的语音信号稀疏表示算法，包括步骤：1）针对数字语音信号短时自相关函数具有指数衰减的特性，构造基于K-L展开的自适应冗余字典；2）设计自适应冗余字典的语音信号稀疏表示算法。
申请公布号	CN102332268B	申请公布日期	2013.03.13
申请号	CN201110283665.4	申请日期	2011.09.22
申请人	南京工业大学	发明人	王天荆
分类号	G10L19/038(2013.01)I	主分类号	G10L19/038(2013.01)I
代理机构	南京天翼专利代理有限责任公司 32112	代理人	朱戈胜
主权项	1.一种基于自适应冗余字典的语音信号稀疏表示算法，其特征是包括步骤：1)针对数字语音信号短时自相关函数具有指数衰减的特性，构造基于K-L展开的自适应冗余字典；2)设计自适应冗余字典的语音信号稀疏表示算法；所述步骤1)中，假设连续实随机过程{x(t)，t∈[0，1]}是二阶矩过程，则其K-L展开式为：<img file="FDA00001730591600011.GIF" wi="295" he="94" />其中，系数<img file="FDA00001730591600012.GIF" wi="319" he="72" />正交K-L基<img file="FDA00001730591600013.GIF" wi="112" he="40" />是自相关函数R<sub>x</sub>(t，u)的特征函数，<img file="FDA00001730591600014.GIF" wi="83" he="41" />和与之对应的特征值λ∈R满足Fredholm积分方程：<img file="FDA00001730591600015.GIF" wi="447" he="72" />于是，x(t)的N项近似式为<img file="FDA00001730591600016.GIF" wi="294" he="100" />由上述K-L展开定义可知，K-L展开的关键是获得自相关函数的特征值和特征函数；针对平稳随机过程的自相关函数在时延较小时较快衰减的特性，考虑指数衰减型自相关函数R<sub>x</sub>(t，u)＝r<sub>x</sub>(0)e<sup>-μ\|t-u\|</sup>，其中参数μ反映了衰减速度和r<sub>x</sub>(0)＝var(x(t))，并求解如下的Fredholm积分方程：<img file="FDA00001730591600017.GIF" wi="1149" he="73" />获得一组正交特征函数组<img file="FDA00001730591600018.GIF" wi="516" he="89" />n∈Z-{0}；再加入<img file="FDA00001730591600019.GIF" wi="163" he="41" />构建完备的自适应正交K-L基函数组<img file="FDA000017305916000110.GIF" wi="341" he="41" />n∈Z-{0}}；离散E中基函数，获得自适应冗余字典：<img file="FDA000017305916000111.GIF" wi="401" he="50" />其中e<sub>n</sub>＝[e<sub>n</sub>(1)，…，e<sub>n</sub>(i)，…e<sub>n</sub>(M)]<sup>T</sup>，<maths num="0001"><![CDATA[<math><mrow><msub><mi>e</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mi>nπ</mi><mi>μ</mi></mfrac><mi>cos</mi><mrow><mo>(</mo><mfrac><mrow><mi>nπ</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow><mo>+</mo><mi>sin</mi><mrow><mo>(</mo><mfrac><mrow><mi>nπ</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>(i＝1，…，M)和e<sub>0</sub>＝[1，…，1]<sup>T</sup>；所述步骤2)中，因为数字语音信号短时自相关函数具有指数衰减的特性，所以可以基于冗余字典<img file="FDA000017305916000113.GIF" wi="29" he="39" />自适应选取K个原子对语音信号x∈R<sup>M</sup>作非线性逼近：<maths num="0002"><![CDATA[<math><mrow><mover><mi>x</mi><mo>~</mo></mover><mo>=</mo><msub><mi>F</mi><mi>K</mi></msub><mi>x</mi><mo>=</mo><munder><mi>Σ</mi><mrow><mi>n</mi><mo>&Element;</mo><msub><mi>I</mi><mi>K</mi></msub></mrow></munder><mi>α</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><msub><mi>e</mi><mi>n</mi></msub><mo>=</mo><munder><mi>Σ</mi><mrow><mi>n</mi><mo>&Element;</mo><msub><mi>I</mi><mi>K</mi></msub></mrow></munder><mfrac><mrow><mo><</mo><msub><mrow><mi>x</mi><mo>,</mo><mi>e</mi></mrow><mi>n</mi></msub><mo>></mo></mrow><mrow><mo><</mo><msub><mi>e</mi><mi>n</mi></msub><mo>,</mo><msub><mi>e</mi><mi>n</mi></msub><mo>></mo></mrow></mfrac><msub><mi>e</mi><mi>n</mi></msub><mo>,</mo></mrow></math>]]></maths>其中Card(I<sub>K</sub>)=K，α=[α(1),…,α(N)]<sup>T</sup>为分解系数向量；保留α中绝对值最大的K个α(n)(n∈I<sub>K</sub>)，并令α(n)=0<img file="FDA00001730591600022.GIF" wi="157" he="41" />可得到稀疏分解向量<img file="FDA00001730591600023.GIF" wi="28" he="33" />和重构语音信号<img file="FDA00001730591600024.GIF" wi="154" he="41" />则逼近绝对误差为<maths num="0003"><![CDATA[<math><mrow><msub><mi>ϵ</mi><mi>K</mi></msub><mo>=</mo><msub><mrow><mo>\|</mo><mo>\|</mo><mi>x</mi><mo>-</mo><msub><mi>F</mi><mi>K</mi></msub><mi>x</mi><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msub><mo>=</mo><msub><mrow><mo>\|</mo><mo>\|</mo><mi>x</mi><mo>-</mo><mover><mi>x</mi><mo>~</mo></mover><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msub><mo>.</mo></mrow></math>]]></maths>
地址	210009 江苏省南京市新模范马路5号