发明名称 基于自适应冗余字典的语音信号稀疏表示方法
摘要 一种基于自适应冗余字典的语音信号稀疏表示算法,包括步骤:1)针对数字语音信号短时自相关函数具有指数衰减的特性,构造基于K-L展开的自适应冗余字典;2)设计自适应冗余字典的语音信号稀疏表示算法。
申请公布号 CN102332268A 申请公布日期 2012.01.25
申请号 CN201110283665.4 申请日期 2011.09.22
申请人 王天荆 发明人 王天荆
分类号 G10L19/00(2006.01)I 主分类号 G10L19/00(2006.01)I
代理机构 南京天翼专利代理有限责任公司 32112 代理人 朱戈胜
主权项 1.一种基于自适应冗余字典的语音信号稀疏表示算法,其特征是包括步骤:1)针对数字语音信号短时自相关函数具有指数衰减的特性,构造基于K-L展开的自适应冗余字典;2)设计自适应冗余字典的语音信号稀疏表示算法;所述步骤1)中,假设连续实随机过程{x(t),t∈[0,1]}是二阶矩过程,则其K-L展开式为:<img file="FDA0000093395110000011.GIF" wi="297" he="93" />其中,系数<img file="FDA0000093395110000012.GIF" wi="317" he="74" />正交K-L基<img file="FDA0000093395110000013.GIF" wi="116" he="41" />是自相关函数R<sub>x</sub>(t,u)的特征函数,<img file="FDA0000093395110000014.GIF" wi="81" he="40" />和与之对应的特征值λ∈R满足Fredholm积分方程:<img file="FDA0000093395110000015.GIF" wi="444" he="74" />于是,x(t)的N项近似式为<img file="FDA0000093395110000016.GIF" wi="296" he="99" />由上述K-L展开定义可知,K-L展开的关键是获得自相关函数的特征值和特征函数;针对平稳随机过程的自相关函数在时延较小时较快衰减的特性,考虑指数衰减型自相关函数R<sub>x</sub>(t,u)=r<sub>x</sub>(0)e<sup>-μ|t-u|</sup>,其中参数μ反映了衰减速度和r<sub>x</sub>(0)=var(x(t)),并求解如下的Fredholm积分方程:<img file="FDA0000093395110000017.GIF" wi="1151" he="74" />获得一组正交特征函数组<img file="FDA0000093395110000018.GIF" wi="724" he="88" />再加入<img file="FDA0000093395110000019.GIF" wi="164" he="40" />构建完备的自适应正交K-L基函数组<img file="FDA00000933951100000110.GIF" wi="624" he="40" />离散E中基函数,获得自适应冗余字典:<img file="FDA00000933951100000111.GIF" wi="402" he="52" />其中e<sub>n</sub>=[e<sub>n</sub>(1),…,e<sub>n</sub>(i),…e<sub>n</sub>(M)]<sup>T</sup>,<maths num="0001"><![CDATA[<math><mrow><msub><mi>e</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mi>n&pi;</mi><mi>&mu;</mi></mfrac><mi>cos</mi><mrow><mo>(</mo><mfrac><mrow><mi>n&pi;</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow><mo>+</mo><mi>sin</mi><mrow><mo>(</mo><mfrac><mrow><mi>n&pi;</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>(i=1,…,M)和e<sub>0</sub>=[1,…,1]<sup>T</sup>。所述步骤2)中,因为数字语音信号短时自相关函数具有指数衰减的特性,所以可以基于冗余字典<img file="FDA00000933951100000113.GIF" wi="29" he="39" />自适应选取K个原子对语音信号x∈R<sup>M</sup>作非线性逼近:<maths num="0002"><![CDATA[<math><mrow><mover><mi>x</mi><mo>~</mo></mover><mo>=</mo><msub><mi>F</mi><mi>K</mi></msub><mi>x</mi><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>n</mi><mo>&Element;</mo><msub><mi>I</mi><mi>K</mi></msub></mrow></munder><mi>&alpha;</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><msub><mi>e</mi><mtext>n</mtext></msub><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>n</mi><mo>&Element;</mo><msub><mi>I</mi><mi>K</mi></msub></mrow></munder><mfrac><mrow><mo>&lt;</mo><mi>x</mi><mo>,</mo><msub><mi>e</mi><mi>n</mi></msub><mo>></mo></mrow><mrow><mo>&lt;</mo><msub><mi>e</mi><mi>n</mi></msub><mo>,</mo><msub><mi>e</mi><mi>n</mi></msub><mo>></mo></mrow></mfrac><msub><mi>e</mi><mi>n</mi></msub><mo>,</mo></mrow></math>]]></maths>其中Card(I<sub>K</sub>)=K,α=[α(1),…,α(N)]<sup>T</sup>为分解系数向量;。保留α中绝对值最大的K个α(n)(n∈I<sub>K</sub>),并令<img file="FDA0000093395110000022.GIF" wi="312" he="41" />可得到稀疏分解向量<img file="FDA0000093395110000023.GIF" wi="28" he="31" />和重构语音信号<img file="FDA0000093395110000024.GIF" wi="151" he="41" />则逼近绝对误差为<maths num="0003"><![CDATA[<math><mrow><msub><mi>&epsiv;</mi><mi>K</mi></msub><mo>=</mo><msub><mrow><mo>|</mo><mo>|</mo><mi>x</mi><mo>-</mo><msub><mi>F</mi><mi>K</mi></msub><mi>x</mi><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msub><mo>=</mo><msub><mrow><mo>|</mo><mo>|</mo><mi>x</mi><mo>-</mo><mover><mi>x</mi><mo>~</mo></mover><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msub><mo>.</mo></mrow></math>]]></maths>
地址 210019 江苏省南京市建邺区月安街39号翠杉园11幢702室