发明名称 基于非监督学的噪声谱估计与语音活动度检测方法
摘要 本发明涉及一种基于非监督学的噪声功率谱估计与语音活动度检测方法,包括下列步骤:1)对于语音信号在每一个频点上的对数幅度特征,建立一个GMM模型;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤1)的GMM模型进行初始化,得到初始化的模型λ<sub>0,k</sub>;3)在得到初始化的模型λ<sub>0,k</sub>之后,从第M+1帧开始,采用增量学的方法,逐帧更新GMM模型,依次递推得到<img file="dsa00000122082600011.GIF" wi="717" he="74" />并得出噪声值<img file="dsa00000122082600012.GIF" wi="73" he="64" />和语音信号在第i帧的第k个频点上的出现概率。本发明是谱估计与语音活动度检测的紧耦合解决方案,能够增强语音应用系统对噪声环境的适应性;本发明不依赖于“噪声起始”假设,并且,本发明还能够提供语音活动度在时频二维空间上的描述。
申请公布号 CN101853661B 申请公布日期 2012.05.30
申请号 CN201010178166.4 申请日期 2010.05.14
申请人 中国科学院声学研究所 发明人 应冬文;颜永红;付强;潘接林
分类号 G10L19/00(2006.01)I;G10L21/02(2006.01)I 主分类号 G10L19/00(2006.01)I
代理机构 北京法思腾知识产权代理有限公司 11318 代理人 杨小蓉;高宇
主权项 1.一种基于非监督学习的噪声功率谱估计与语音活动度检测方法,包括下列步骤:1)对于语音信号在每一个频点上的对数幅度特征,建立一个GMM模型,数学表达式如下:<maths num="0001"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><msub><mi>&lambda;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>0</mn><mo>,</mo><msub><mi>&lambda;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>+</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>&lambda;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>其中,GMM模型的高斯分量表示为:<maths num="0002"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>,</mo><msub><mi>&lambda;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msqrt><mn>2</mn><mi>&pi;</mi><msubsup><mi>&kappa;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow></msubsup></msqrt></mfrac><mi>exp</mi><mo>{</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>-</mo><msubsup><mi>&mu;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mo>}</mo><mo>,</mo></mrow></math>]]></maths>其中,x<sub>i,k</sub>表示第i帧的第k个频点上的对数幅度谱,h∈{0,1},<img file="FDA0000131578140000013.GIF" wi="72" he="64" />表示GMM的权重系数,<img file="FDA0000131578140000014.GIF" wi="74" he="63" />和<img file="FDA0000131578140000015.GIF" wi="72" he="63" />分别表示均值和方差,其中h=1表示语音分量,h=0表示噪声分量;<maths num="0003"><![CDATA[<math><mrow><msub><mi>&lambda;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>=</mo><msubsup><mrow><mo>{</mo><mi>&mu;</mi></mrow><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>&mu;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>&kappa;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>&kappa;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mo>}</mo></mrow></math>]]></maths>表示高斯混合模型的参数集;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤1)的GMM模型进行初始化,得到初始化的模型λ<sub>0,k</sub>;初始化过程采用约束EM算法;3)在得到初始化的模型λ<sub>0,k</sub>之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的GMM模型,依次递推得到<img file="FDA0000131578140000017.GIF" wi="714" he="76" />并得出噪声值<img file="FDA0000131578140000018.GIF" wi="73" he="63" />和语音信号在第i帧的第k个频点上的出现概率:<maths num="0004"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>h</mi><mo>=</mo><mn>1</mn><mo>|</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>,</mo><msub><mi>&lambda;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>&lambda;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow></mrow><mrow><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>0</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>0</mn><mo>,</mo><msub><mi>&lambda;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mo>+</mo><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>|</mo><mi>h</mi><mo>=</mo><mn>1</mn><mo>,</mo><msub><mi>&lambda;</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>其中i=1,2,3,……。
地址 100190 北京市海淀区北四环西路21号