一种基于Gabor时频分析的耳语增强方法,申请号CN201110092780.3-传众专利搜索

发明名称	一种基于Gabor时频分析的耳语增强方法
摘要	本发明提供一种基于Gabor时频分析的耳语增强方法，包括如下步骤：第1步：利用Gabor时频分析理论和方法提取耳语音对数谱幅度，第2步，基于无语音概率的耳语音噪声谱估计，第3步，获取纯净耳语音的功率谱，并求增强后的耳语音信号；本发明基于Gabor变换下的耳语音功率谱根据抽样率的不同有着多样的时频分析细腻度，从而可以根据不同的语音类型采用不同的抽样率，使算法普适性更强。
申请公布号	CN102737643A	申请公布日期	2012.10.17
申请号	CN201110092780.3	申请日期	2011.04.14
申请人	东南大学	发明人	赵力;周健;邹采荣;王开;金赟;张毅锋;余华
分类号	G10L21/02(2006.01)I	主分类号	G10L21/02(2006.01)I
代理机构	南京经纬专利商标代理有限公司 32200	代理人	许方
主权项	1.一种基于Gabor时频分析的耳语增强方法，其特征在于，步骤如下：第1步，利用Gabor时频分析理论和方法提取耳语音对数谱幅度：设带噪耳语音信号为y(n)＝x(n)+d(n)，其中x(n)和d(n)分别代表纯净的耳语音和噪声信号，且纯净耳语音和噪声不相关；设Y<sub>r</sub>(m，n)，X<sub>r</sub>(m，n)和D<sub>r</sub>(m，n)分别代表y(k)、x(n)和d(n)的实值离散Gabor变换系数，则y(k)具体的实值离散Gabor变换式可表示为：<maths num="0001"><![CDATA[<math><mrow><msub><mi>Y</mi><mi>r</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>y</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mi>γ</mi><mrow><mo>(</mo><mi>k</mi><mo>-</mo><mi>ma</mi><mo>)</mo></mrow><mi>cas</mi><mrow><mo>(</mo><mn>2</mn><mi>πnk</mi><mo>/</mo><mi>N</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>其相应的逆变换为：<maths num="0002"><![CDATA[<math><mrow><mover><mi>y</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>m</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></munderover><munderover><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>Y</mi><mi>r</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow><mi>g</mi><mrow><mo>(</mo><mi>k</mi><mo>-</mo><mi>ma</mi><mo>)</mo></mrow><mi>cas</mi><mrow><mo>(</mo><mn>2</mn><mi>πnk</mi><mo>/</mo><mi>N</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中a为时移长度，L代表耳语音信号的长度，M为频域抽样点数，N为时域抽样点数，cas(t)＝cos(t)+sin(t)，γ(k)是综合窗g(k)的双正交分析窗函数，且两者满足如下双正交关系：<maths num="0003"><![CDATA[<math><mrow><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>g</mi><mrow><mo>(</mo><mi>k</mi><mo>+</mo><mi>mN</mi><mo>)</mo></mrow><mi>cas</mi><mrow><mo>(</mo><mn>2</mn><mi>πnk</mi><mo>/</mo><mi>a</mi><mo>)</mo></mrow><mi>γ</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mi>L</mi><mi>MN</mi></mfrac><msub><mi>δ</mi><mi>m</mi></msub><msub><mi>δ</mi><mi>n</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>实值离散Gabor变换算法采用并行格结构实现：获取变换系数后，根据变换系数采用如下公式计算功率谱：<maths num="0004"><![CDATA[<math><mrow><mi>Y</mi><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mrow><mo>(</mo><msub><mi>Y</mi><mi>r</mi></msub><msup><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msub><mi>Y</mi><mi>r</mi></msub><msup><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>N</mi><mo>-</mo><mi>n</mi><mo>)</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>根据噪声与语音的独立性假设，有以下等式成立：Y(m，n)＝X(m，n)+D(m，n) (4)第2步，基于无语音概率的耳语音噪声谱估计：求使得式<img file="FDA0000055231670000015.GIF" wi="656" he="60" />值最小的<img file="FDA0000055231670000016.GIF" wi="184" he="60" />由此式可得纯净语音谱估计为：<maths num="0005"><![CDATA[<math><mrow><mover><mi>X</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mi>E</mi><mo>[</mo><mi>log</mi><mi>X</mi><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow><mo>\|</mo><mi>Y</mi><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow><mo>]</mo><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths>假设耳语音和噪声均服从高斯分布，并且设H<sub>0</sub>(k，λ)，H<sub>1</sub>(k，λ))分别代表有第λ个时刻的第k个频率点没有语音和有语音信号，则有<maths num="0006"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>\|</mo><msub><mi>H</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>π</mi><msub><mi>λ</mi><mi>d</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow></mrow></mfrac><mi>exp</mi><mo>{</mo><mo>-</mo><mfrac><msup><mrow><mo>\|</mo><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>\|</mo></mrow><mn>2</mn></msup><mrow><msub><mi>λ</mi><mi>d</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow></mrow></mfrac><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0007"><![CDATA[<math><mrow><mi>P</mi><mrow><mo>(</mo><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>\|</mo><msub><mi>H</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>π</mi><mrow><mo>(</mo><msub><mi>λ</mi><mi>d</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>λ</mi><mi>x</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mo>)</mo></mrow><mi>λ</mi></mrow></mfrac><mi>exp</mi><mo>{</mo><mo>-</mo><mfrac><msup><mrow><mo>\|</mo><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>\|</mo></mrow><mn>2</mn></msup><mrow><msub><mi>λ</mi><mi>d</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>λ</mi><mi>x</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow></mrow></mfrac><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中λ<sub>x</sub>(k，λ)≡E{X(k，λ)<sup>2</sup>\|H<sub>1</sub>(k，λ)}，λ<sub>d</sub>(k，λ)≡E{D(k，λ)<sup>2</sup>}分别代表纯净耳语音和噪声的方差；采用<img file="FDA0000055231670000023.GIF" wi="362" he="141" />和<img file="FDA0000055231670000024.GIF" wi="341" he="122" />分别代表语音出现的后验和先验概率，则f(γ(k，λ)\|H<sub>0</sub>(k，λ))＝e<sup>-γ(k，λ)</sup>μ(γ(k，λ)) (8)<maths num="0008"><![CDATA[<math><mrow><mi>f</mi><mrow><mo>(</mo><mi>γ</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>\|</mo><msub><mi>H</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><mi>ξ</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow></mrow></mfrac><mi>exp</mi><mo>{</mo><mo>-</mo><mfrac><mrow><mi>γ</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>+</mo><mi>ξ</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow></mrow></mfrac><mo>}</mo><mi>μ</mi><mrow><mo>(</mo><mi>γ</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow></math>]]></maths>令p(k，λ)≡P(H<sub>1</sub>(k，λ)\|γ(k，λ))，则有<maths num="0009"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>{</mo><mn>1</mn><mo>+</mo><mfrac><mrow><mi>q</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>-</mo><mi>q</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow></mrow></mfrac><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mi>ξ</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>×</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>v</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>}</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中q(k，λ)≡P(H<sub>0</sub>(k，λ))代表无语音出现概率，<img file="FDA0000055231670000027.GIF" wi="374" he="119" />第3步，获取纯净耳语音的功率谱，并求增强后的耳语音信号：根据上述语音出现概率，求得如下纯净语音功率谱增益：<maths num="0010"><![CDATA[<math><mrow><mi>G</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>{</mo><msub><mi>G</mi><mrow><mi>H</mi><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow><mo>}</mo></mrow><mrow><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow></mrow></msup><msubsup><mi>G</mi><mi>min</mi><mrow><mn>1</mn><mo>-</mo><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>λ</mi><mo>)</mo></mrow></mrow></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中<img file="FDA0000055231670000029.GIF" wi="830" he="123" />G<sub>min</sub>为无语音出现时噪声谱的最小阈值；在计算出纯净语音谱增益后，利用下式计算纯净语音谱：<maths num="0011"><![CDATA[<math><mrow><mover><mi>X</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mo>=</mo><mi>G</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow></math>]]></maths>再利用实值离散Gabor逆变换获得增强后的纯净语音：<maths num="0012"><![CDATA[<math><mrow><msub><mover><mi>X</mi><mo>&OverBar;</mo></mover><mi>r</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mo>=</mo><mi>Re</mi><mrow><mo>(</mo><mover><mi>X</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mi>IMG</mi><mrow><mo>(</mo><mover><mi>X</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0013"><![CDATA[<math><mrow><mover><mi>x</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>m</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>M</mi><mo>-</mo><mn>1</mn></mrow></munderover><munderover><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>X</mi><mi>r</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow><mi>g</mi><mrow><mo>(</mo><mi>k</mi><mo>-</mo><mi>ma</mi><mo>)</mo></mrow><mi>cas</mi><mrow><mo>(</mo><mn>2</mn><mi>πnk</mi><mo>/</mo><mi>N</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow></math>]]></maths><img file="FDA0000055231670000032.GIF" wi="87" he="60" />即为增强后的耳语音。
地址	215000 江苏省苏州市苏州工业园区独墅湖高教区林泉路399号