基于混合t模型的说话人识别方法,申请号CN200810162449.2-传众专利搜索

发明名称	基于混合t模型的说话人识别方法
摘要	本发明公开了一种基于混合t模型的说话人识别方法，包括如下步骤：1)特征提取：采集待识别的语音信号，对音频信号预处理，对预处理后的语音信号进行特征提取，得到语音信号的特征；2)说话人建模：采用混合t模型对语音特征建模，根据说话人的语音训练出其混合t模型的参数；3)测试：采用测试语音的后验概率表示得分，通过得分与阀值的比较，得到语音信号的识别结果，本发明采用混合t模型对说话人语音特征空间建模，提出了一种EM算法训练t混合模型的参数，提高说话人识别的鲁棒性。特别是当有较大的边缘噪音的时候，混合t分布比高斯混合分布更有鲁棒性。
申请公布号	CN101419799A	申请公布日期	2009.04.29
申请号	CN200810162449.2	申请日期	2008.11.25
申请人	浙江大学	发明人	吴朝晖;杨莹春;单振宇
分类号	G10L17/00(2006.01)I	主分类号	G10L17/00(2006.01)I
代理机构	杭州天勤知识产权代理有限公司	代理人	胡红娟
主权项	1、一种基于混合t模型的说话人识别方法，包括如下步骤：1)、特征提取：采集待识别的语音信号，对音频信号预处理，对预处理后的语音信号进行特征提取，得到语音信号的特征；2)、说话人建模：采用混合t模型对语音特征建模，根据说话人的语音训练出其混合t模型的参数；所述的混合t模型为：<maths num="0001"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>w</mi><mi>i</mi></msub><msub><mi>t</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></math>]]></maths>其中，t<sub>i</sub>(x)表示t分布，x是一个p维的向量，w<sub>i</sub>表示每个t分布的混合权重，且满足<maths num="0002"><![CDATA[<math><mrow><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></msubsup><msub><mi>w</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn><mo>,</mo></mrow></math>]]></maths>t<sub>i</sub>(x)定义为：<maths num="0003"><![CDATA[<math><mrow><msub><mi>t</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>Γ</mi><mrow><mo>(</mo><mfrac><mrow><msub><mi>γ</mi><mi>i</mi></msub><mo>+</mo><mi>p</mi></mrow><mn>2</mn></mfrac><mo>)</mo></mrow><msup><mrow><mo>\|</mo><msub><mi>Σ</mi><mi>i</mi></msub><mo>\|</mo></mrow><mrow><mo>-</mo><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow><mrow><msup><mrow><mo>(</mo><mi>Γ</mi><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mo>)</mo></mrow><mi>p</mi></msup><mi>Γ</mi><mrow><mo>(</mo><mfrac><msub><mi>γ</mi><mi>i</mi></msub><mn>2</mn></mfrac><mo>)</mo></mrow><msubsup><mi>γ</mi><mi>i</mi><mrow><mi>p</mi><mo>/</mo><mn>2</mn></mrow></msubsup><mo>×</mo><msup><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mfrac><mrow><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mi>μ</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msubsup><mi>Σ</mi><mi>i</mi><mrow><mo>-</mo><mn>1</mn></mrow></msubsup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><msub><mi>μ</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><msub><mi>γ</mi><mi>i</mi></msub></mfrac><mo>)</mo></mrow><mrow><mrow><mo>(</mo><msub><mi>γ</mi><mi>i</mi></msub><mo>+</mo><mi>p</mi><mo>)</mo></mrow><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac></mrow></math>]]></maths>其中，μ<sub>i</sub>，∑<sub>i</sub>，γ<sub>i</sub>分别表示t分布的均值、t分布的方差矩阵和t分布的自由度，Γ表示gamma方程，其定义如下：<maths num="0004"><![CDATA[<math><mrow><mi>Γ</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mo>&Integral;</mo><mn>0</mn><mo>∞</mo></msubsup><msup><mi>e</mi><mrow><mo>-</mo><mi>t</mi></mrow></msup><msup><mi>t</mi><mrow><mi>x</mi><mo>-</mo><mn>1</mn></mrow></msup><mi>dt</mi></mrow></math>]]></maths>3)、测试：计算步骤1)得到的待识别的语音信号的特征在某个说话人的混合t模型上的得分，通过得分与阀值的比较，得到语音信号的识别结果，得分表示为：<maths num="0005"><![CDATA[<math><mrow><mi>score</mi><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>log</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>\|</mo><msub><mi>λ</mi><mi>t</mi></msub><mo>)</mo></mrow></mrow></math>]]></maths>其中，x<sub>i</sub>表示待识别的语音信号的特征，n表示特征的数目，<img file="A200810162449C0002152332QIETU.GIF" wi="47" he="71" />表示混合t模型。
地址	310027浙江省杭州市西湖区浙大路38号