基于自适应冗余字典的语音信号稀疏表示方法,申请号CN201110283665.4-传众专利搜索

发明名称	基于自适应冗余字典的语音信号稀疏表示方法
摘要	一种基于自适应冗余字典的语音信号稀疏表示算法，包括步骤：1）针对数字语音信号短时自相关函数具有指数衰减的特性，构造基于K-L展开的自适应冗余字典；2）设计自适应冗余字典的语音信号稀疏表示算法。
申请公布号	CN102332268A	申请公布日期	2012.01.25
申请号	CN201110283665.4	申请日期	2011.09.22
申请人	王天荆	发明人	王天荆
分类号	G10L19/00(2006.01)I	主分类号	G10L19/00(2006.01)I
代理机构	南京天翼专利代理有限责任公司 32112	代理人	朱戈胜
主权项	1.一种基于自适应冗余字典的语音信号稀疏表示算法，其特征是包括步骤：1)针对数字语音信号短时自相关函数具有指数衰减的特性，构造基于K-L展开的自适应冗余字典；2)设计自适应冗余字典的语音信号稀疏表示算法；所述步骤1)中，假设连续实随机过程{x(t)，t∈[0，1]}是二阶矩过程，则其K-L展开式为：<img file="FDA0000093395110000011.GIF" wi="297" he="93" />其中，系数<img file="FDA0000093395110000012.GIF" wi="317" he="74" />正交K-L基<img file="FDA0000093395110000013.GIF" wi="116" he="41" />是自相关函数R<sub>x</sub>(t，u)的特征函数，<img file="FDA0000093395110000014.GIF" wi="81" he="40" />和与之对应的特征值λ∈R满足Fredholm积分方程：<img file="FDA0000093395110000015.GIF" wi="444" he="74" />于是，x(t)的N项近似式为<img file="FDA0000093395110000016.GIF" wi="296" he="99" />由上述K-L展开定义可知，K-L展开的关键是获得自相关函数的特征值和特征函数；针对平稳随机过程的自相关函数在时延较小时较快衰减的特性，考虑指数衰减型自相关函数R<sub>x</sub>(t，u)＝r<sub>x</sub>(0)e<sup>-μ\|t-u\|</sup>，其中参数μ反映了衰减速度和r<sub>x</sub>(0)＝var(x(t))，并求解如下的Fredholm积分方程：<img file="FDA0000093395110000017.GIF" wi="1151" he="74" />获得一组正交特征函数组<img file="FDA0000093395110000018.GIF" wi="724" he="88" />再加入<img file="FDA0000093395110000019.GIF" wi="164" he="40" />构建完备的自适应正交K-L基函数组<img file="FDA00000933951100000110.GIF" wi="624" he="40" />离散E中基函数，获得自适应冗余字典：<img file="FDA00000933951100000111.GIF" wi="402" he="52" />其中e<sub>n</sub>＝[e<sub>n</sub>(1)，…，e<sub>n</sub>(i)，…e<sub>n</sub>(M)]<sup>T</sup>，<maths num="0001"><![CDATA[<math><mrow><msub><mi>e</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mi>nπ</mi><mi>μ</mi></mfrac><mi>cos</mi><mrow><mo>(</mo><mfrac><mrow><mi>nπ</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow><mo>+</mo><mi>sin</mi><mrow><mo>(</mo><mfrac><mrow><mi>nπ</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>(i＝1，…，M)和e<sub>0</sub>＝[1，…，1]<sup>T</sup>。所述步骤2)中，因为数字语音信号短时自相关函数具有指数衰减的特性，所以可以基于冗余字典<img file="FDA00000933951100000113.GIF" wi="29" he="39" />自适应选取K个原子对语音信号x∈R<sup>M</sup>作非线性逼近：<maths num="0002"><![CDATA[<math><mrow><mover><mi>x</mi><mo>~</mo></mover><mo>=</mo><msub><mi>F</mi><mi>K</mi></msub><mi>x</mi><mo>=</mo><munder><mi>Σ</mi><mrow><mi>n</mi><mo>&Element;</mo><msub><mi>I</mi><mi>K</mi></msub></mrow></munder><mi>α</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><msub><mi>e</mi><mtext>n</mtext></msub><mo>=</mo><munder><mi>Σ</mi><mrow><mi>n</mi><mo>&Element;</mo><msub><mi>I</mi><mi>K</mi></msub></mrow></munder><mfrac><mrow><mo><</mo><mi>x</mi><mo>,</mo><msub><mi>e</mi><mi>n</mi></msub><mo>></mo></mrow><mrow><mo><</mo><msub><mi>e</mi><mi>n</mi></msub><mo>,</mo><msub><mi>e</mi><mi>n</mi></msub><mo>></mo></mrow></mfrac><msub><mi>e</mi><mi>n</mi></msub><mo>,</mo></mrow></math>]]></maths>其中Card(I<sub>K</sub>)＝K，α＝[α(1)，…，α(N)]<sup>T</sup>为分解系数向量；。保留α中绝对值最大的K个α(n)(n∈I<sub>K</sub>)，并令<img file="FDA0000093395110000022.GIF" wi="312" he="41" />可得到稀疏分解向量<img file="FDA0000093395110000023.GIF" wi="28" he="31" />和重构语音信号<img file="FDA0000093395110000024.GIF" wi="151" he="41" />则逼近绝对误差为<maths num="0003"><![CDATA[<math><mrow><msub><mi>ϵ</mi><mi>K</mi></msub><mo>=</mo><msub><mrow><mo>\|</mo><mo>\|</mo><mi>x</mi><mo>-</mo><msub><mi>F</mi><mi>K</mi></msub><mi>x</mi><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msub><mo>=</mo><msub><mrow><mo>\|</mo><mo>\|</mo><mi>x</mi><mo>-</mo><mover><mi>x</mi><mo>~</mo></mover><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msub><mo>.</mo></mrow></math>]]></maths>
地址	210019 江苏省南京市建邺区月安街39号翠杉园11幢702室