发明名称 基于加权贝叶斯混合模型的与文本无关的说话人识别方法
摘要 本发明公开了基于加权贝叶斯混合模型的与文本无关的说话人识别方法,该方法首先对用于训练的语音信号集合进行预处理和特征提取,接着在训练过程中采用加权贝叶斯混合模型来描述训练集合,通过训练分别估计出加权贝叶斯混合模型中的参数值以及随机变量分布,从而得到与每一说话人相对应的加权贝叶斯混合模型;在识别时,将经过预处理和特征提取的带识别的语音,计算其关于训练好的每一说话人相对应的加权贝叶斯混合模型的边缘似然值,将最大边缘似然值对应的说话人作为识别结果。本发明能有效地提高与文本相关说话人识别系统的识别正确率,避免传统方法中容易出现的过拟合和欠拟合问题,并且使得先验信息和训练数据的相对权重更容易和灵活地控制。
申请公布号 CN104183239B 申请公布日期 2017.04.19
申请号 CN201410361706.0 申请日期 2014.07.25
申请人 南京邮电大学 发明人 魏昕;周亮;赵力;陈建新
分类号 G10L17/04(2013.01)I;G10L17/02(2013.01)I 主分类号 G10L17/04(2013.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 基于加权贝叶斯混合模型的与文本无关的说话人识别方法,其特征在于,所述方法包括如下步骤:步骤1:对语音信号进行预处理:包括采样与量化、预加重、分帧与加窗;步骤2:语音帧上的特征提取:对每一语音帧,计算D阶线性预测倒谱系数,将其作为该帧的D维特征矢量;步骤3:对于每一说话人所对应的训练集合X={x<sub>n</sub>}<sub>n=1,...,N</sub>,其中N为该说话人用于训练的D维特征矢量x<sub>n</sub>的个数;用加权贝叶斯混合模型,即WBMM来建模X,通过训练估计出WBMM中的参数值以及随机变量的分布,在该识别系统中需要识别G个说话人,则重复训练过程G次,分别得到WBMM<sub>1</sub>,…,WBMM<sub>g</sub>,...,WBMM<sub>G</sub>;步骤4:对于待识别的语音,首先进行预处理以及特征提取,得到相应的D维特征矢量x';计算x'关于每一个说话人对应的模型WBMM<sub>1</sub>,…,WBMM<sub>g</sub>,…,WBMM<sub>G</sub>的边缘似然值{MLIK<sub>g</sub>(x')}<sub>g=1,...,G</sub>,最终的识别结果为最大的MLIK<sub>g</sub>(x')所对应的说话人speaker,即:<maths num="0001"><math><![CDATA[<mrow><mi>s</mi><mi>p</mi><mi>e</mi><mi>a</mi><mi>ker</mi><mrow><mo>(</mo><msup><mi>x</mi><mo>&prime;</mo></msup><mo>)</mo></mrow><mo>=</mo><mi>arg</mi><mi> </mi><msubsup><mi>max</mi><mrow><mi>g</mi><mo>=</mo><mn>1</mn></mrow><mi>G</mi></msubsup><msub><mi>MLIK</mi><mi>g</mi></msub><mrow><mo>(</mo><msup><mi>x</mi><mo>&prime;</mo></msup><mo>)</mo></mrow><mo>.</mo></mrow>]]></math><img file="FDA0001223428930000011.GIF" wi="805" he="71" /></maths>
地址 210003 江苏省南京市鼓楼区新模范马路66号