主权项 |
1.一种基于非监督学习的噪声功率谱估计与语音活动度检测方法,包括下列步骤:1)对于语音信号在每一个频点上的对数幅度特征,建立一个GMM模型,数学表达式如下:<maths num="0001"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><msub><mi>λ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>0</mn><mo>,</mo><msub><mi>λ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>+</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>λ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>其中,GMM模型的高斯分量表示为:<maths num="0002"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>,</mo><msub><mi>λ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msqrt><mn>2</mn><mi>π</mi><msubsup><mi>κ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow></msubsup></msqrt></mfrac><mi>exp</mi><mo>{</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>-</mo><msubsup><mi>μ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mo>}</mo><mo>,</mo></mrow></math>]]></maths>其中,x<sub>i,k</sub>表示第i帧的第k个频点上的对数幅度谱,h∈{0,1},<img file="FDA0000131578140000013.GIF" wi="72" he="64" />表示GMM的权重系数,<img file="FDA0000131578140000014.GIF" wi="74" he="63" />和<img file="FDA0000131578140000015.GIF" wi="72" he="63" />分别表示均值和方差,其中h=1表示语音分量,h=0表示噪声分量;<maths num="0003"><![CDATA[<math><mrow><msub><mi>λ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>=</mo><msubsup><mrow><mo>{</mo><mi>μ</mi></mrow><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>μ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>κ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>κ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mo>}</mo></mrow></math>]]></maths>表示高斯混合模型的参数集;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤1)的GMM模型进行初始化,得到初始化的模型λ<sub>0,k</sub>;初始化过程采用约束EM算法;3)在得到初始化的模型λ<sub>0,k</sub>之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的GMM模型,依次递推得到<img file="FDA0000131578140000017.GIF" wi="714" he="76" />并得出噪声值<img file="FDA0000131578140000018.GIF" wi="73" he="63" />和语音信号在第i帧的第k个频点上的出现概率:<maths num="0004"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>h</mi><mo>=</mo><mn>1</mn><mo>|</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>,</mo><msub><mi>λ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>λ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow></mrow><mrow><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>0</mn><mo>,</mo><msub><mi>λ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>+</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>λ</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>其中i=1,2,3,……。 |