发明名称 基于混合t模型的说话人识别方法
摘要 本发明公开了一种基于混合t模型的说话人识别方法,包括如下步骤:1)特征提取:采集待识别的语音信号,对音频信号预处理,对预处理后的语音信号进行特征提取,得到语音信号的特征;2)说话人建模:采用混合t模型对语音特征建模,根据说话人的语音训练出其混合t模型的参数;3)测试:采用测试语音的后验概率表示得分,通过得分与阀值的比较,得到语音信号的识别结果,本发明采用混合t模型对说话人语音特征空间建模,提出了一种EM算法训练t混合模型的参数,提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候,混合t分布比高斯混合分布更有鲁棒性。
申请公布号 CN101419799A 申请公布日期 2009.04.29
申请号 CN200810162449.2 申请日期 2008.11.25
申请人 浙江大学 发明人 吴朝晖;杨莹春;单振宇
分类号 G10L17/00(2006.01)I 主分类号 G10L17/00(2006.01)I
代理机构 杭州天勤知识产权代理有限公司 代理人 胡红娟
主权项 1、一种基于混合t模型的说话人识别方法,包括如下步骤:1)、特征提取:采集待识别的语音信号,对音频信号预处理,对预处理后的语音信号进行特征提取,得到语音信号的特征;2)、说话人建模:采用混合t模型对语音特征建模,根据说话人的语音训练出其混合t模型的参数;所述的混合t模型为:<maths num="0001"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>w</mi><mi>i</mi></msub><msub><mi>t</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></math>]]></maths>其中,t<sub>i</sub>(x)表示t分布,x是一个p维的向量,w<sub>i</sub>表示每个t分布的混合权重,且满足<maths num="0002"><![CDATA[<math><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></msubsup><msub><mi>w</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn><mo>,</mo></mrow></math>]]></maths>t<sub>i</sub>(x)定义为:<maths num="0003"><![CDATA[<math><mrow><msub><mi>t</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>&Gamma;</mi><mrow><mo>(</mo><mfrac><mrow><msub><mi>&gamma;</mi><mi>i</mi></msub><mo>+</mo><mi>p</mi></mrow><mn>2</mn></mfrac><mo>)</mo></mrow><msup><mrow><mo>|</mo><msub><mi>&Sigma;</mi><mi>i</mi></msub><mo>|</mo></mrow><mrow><mo>-</mo><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow><mrow><msup><mrow><mo>(</mo><mi>&Gamma;</mi><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mo>)</mo></mrow><mi>p</mi></msup><mi>&Gamma;</mi><mrow><mo>(</mo><mfrac><msub><mi>&gamma;</mi><mi>i</mi></msub><mn>2</mn></mfrac><mo>)</mo></mrow><msubsup><mi>&gamma;</mi><mi>i</mi><mrow><mi>p</mi><mo>/</mo><mn>2</mn></mrow></msubsup><mo>&times;</mo><msup><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mfrac><mrow><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mi>&mu;</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msubsup><mi>&Sigma;</mi><mi>i</mi><mrow><mo>-</mo><mn>1</mn></mrow></msubsup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mi>&mu;</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><msub><mi>&gamma;</mi><mi>i</mi></msub></mfrac><mo>)</mo></mrow><mrow><mrow><mo>(</mo><msub><mi>&gamma;</mi><mi>i</mi></msub><mo>+</mo><mi>p</mi><mo>)</mo></mrow><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac></mrow></math>]]></maths>其中,μ<sub>i</sub>,∑<sub>i</sub>,γ<sub>i</sub>分别表示t分布的均值、t分布的方差矩阵和t分布的自由度,Γ表示gamma方程,其定义如下:<maths num="0004"><![CDATA[<math><mrow><mi>&Gamma;</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mo>&Integral;</mo><mn>0</mn><mo>&infin;</mo></msubsup><msup><mi>e</mi><mrow><mo>-</mo><mi>t</mi></mrow></msup><msup><mi>t</mi><mrow><mi>x</mi><mo>-</mo><mn>1</mn></mrow></msup><mi>dt</mi></mrow></math>]]></maths>3)、测试:计算步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型上的得分,通过得分与阀值的比较,得到语音信号的识别结果,得分表示为:<maths num="0005"><![CDATA[<math><mrow><mi>score</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>log</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>|</mo><msub><mi>&lambda;</mi><mi>t</mi></msub><mo>)</mo></mrow></mrow></math>]]></maths>其中,x<sub>i</sub>表示待识别的语音信号的特征,n表示特征的数目,<img file="A200810162449C0002152332QIETU.GIF" wi="47" he="71" />表示混合t模型。
地址 310027浙江省杭州市西湖区浙大路38号