主权项 |
基于加权贝叶斯混合模型的与文本无关的说话人识别方法,其特征在于,所述方法包括如下步骤:步骤1:对语音信号进行预处理:包括采样与量化、预加重、分帧与加窗;步骤2:语音帧上的特征提取:对每一语音帧,计算D阶线性预测倒谱系数,将其作为该帧的D维特征矢量;步骤3:对于每一说话人所对应的训练集合X={x<sub>n</sub>}<sub>n=1,...,N</sub>,其中N为该说话人用于训练的D维特征矢量x<sub>n</sub>的个数;用加权贝叶斯混合模型,即WBMM来建模X,通过训练估计出WBMM中的参数值以及随机变量的分布,在该识别系统中需要识别G个说话人,则重复训练过程G次,分别得到WBMM<sub>1</sub>,…,WBMM<sub>g</sub>,...,WBMM<sub>G</sub>;步骤4:对于待识别的语音,首先进行预处理以及特征提取,得到相应的D维特征矢量x';计算x'关于每一个说话人对应的模型WBMM<sub>1</sub>,…,WBMM<sub>g</sub>,…,WBMM<sub>G</sub>的边缘似然值{MLIK<sub>g</sub>(x')}<sub>g=1,...,G</sub>,最终的识别结果为最大的MLIK<sub>g</sub>(x')所对应的说话人speaker,即:<maths num="0001"><math><![CDATA[<mrow><mi>s</mi><mi>p</mi><mi>e</mi><mi>a</mi><mi>ker</mi><mrow><mo>(</mo><msup><mi>x</mi><mo>′</mo></msup><mo>)</mo></mrow><mo>=</mo><mi>arg</mi><mi> </mi><msubsup><mi>max</mi><mrow><mi>g</mi><mo>=</mo><mn>1</mn></mrow><mi>G</mi></msubsup><msub><mi>MLIK</mi><mi>g</mi></msub><mrow><mo>(</mo><msup><mi>x</mi><mo>′</mo></msup><mo>)</mo></mrow><mo>.</mo></mrow>]]></math><img file="FDA0001223428930000011.GIF" wi="805" he="71" /></maths> |