发明名称 基于先验知识规整协方差的概率线性鉴别说话人识别方法
摘要 本发明公开一种基于先验知识规整协方差的概率线性鉴别说话人识别方法,该能够根据任意关于训练语音的有用信息去规整概率线性鉴别分析模型的协方差假设以及迭代过程,最终训练出更具有区分性、更能反映真实情况的概率线性鉴别分析模型。同时,引入两个规整系数使得模型可调,能针对各类不同的规整信息进行自适应达到最优。采用本发明训练得出的模型比传统模型在相同数据集上得出的说话人识别评测效果有明显提升,在国际权威说话人识别评测数据库中能使等错误率(EER)和最小检测错误代价(norm minDCF)相对下降10%-20%。
申请公布号 CN105139856A 申请公布日期 2015.12.09
申请号 CN201510560667.1 申请日期 2015.09.02
申请人 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 发明人 李明;蔡炜城
分类号 G10L17/02(2013.01)I;G10L17/04(2013.01)I 主分类号 G10L17/02(2013.01)I
代理机构 广州粤高专利商标代理有限公司 44102 代理人 林丽明
主权项 一种基于先验知识规整协方差的概率线性鉴别说话人识别方法,其特征在于利用训练语音的有效已知信息去规整概率线性鉴别分析模型的协方差假设以及迭代过程,包括以下步骤:1)采集每条训练语音固有的物理信息或者主客观评分信息,记作信息d<sub>ij</sub>,下标i、j表示该信息属于第i个说话人的第j条训练语音;2)用信息d<sub>ij</sub>对概率线性鉴别分析模型中刻画残差项的协方差矩阵进行规整;3)利用规整后的协方差矩阵,获取第i个说话人的身份向量ivector的平均的条件分布;<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>F</mi><mi>i</mi></msub><mo>|</mo><msub><mi>&beta;</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>N</mi><mrow><mo>(</mo><msub><mi>&phi;&beta;</mi><mi>i</mi></msub><mo>,</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>M</mi><mi>i</mi></msub></msubsup><msup><mrow><mo>(</mo><mfrac><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mi>u</mi></mfrac><mo>)</mo></mrow><mrow><mo>-</mo><mi>v</mi></mrow></msup></mrow><msub><mi>M</mi><mi>i</mi></msub></mfrac><mi>&Sigma;</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000795514640000011.GIF" wi="902" he="291" /></maths>其中,F<sub>i</sub>表示第i个训练说话人的所有身份向量ivector的平均向量,它的均值向量是φβ<sub>i</sub>,<img file="FDA0000795514640000012.GIF" wi="289" he="189" />是协方差,φ是说话人空间矩阵,M<sub>i</sub>是第i个训练说话人的语音总条数,β<sub>i</sub>是第i个说话人的低维说话人向量,是一个隐含变量;根据贝叶斯公式,得出隐含变量β<sub>i</sub>在给定平均向量F<sub>i</sub>下的后验概率,均值向量为:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><msub><mi>&beta;</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mi>I</mi><mo>+</mo><mfrac><msubsup><mi>M</mi><mi>I</mi><mn>2</mn></msubsup><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>M</mi><mi>i</mi></msub></msubsup><msup><mrow><mo>(</mo><mfrac><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mi>u</mi></mfrac><mo>)</mo></mrow><mrow><mo>-</mo><mi>v</mi></mrow></msup></mrow></mfrac><msup><mi>&phi;</mi><mi>T</mi></msup><msup><mi>&Sigma;</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mi>&phi;</mi><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mfrac><msub><mi>M</mi><mi>i</mi></msub><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>M</mi><mi>i</mi></msub></msubsup><msup><mrow><mo>(</mo><mfrac><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mi>u</mi></mfrac><mo>)</mo></mrow><mrow><mo>-</mo><mi>v</mi></mrow></msup></mrow></mfrac><msup><mi>&phi;</mi><mi>T</mi></msup><msup><mi>&Sigma;</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><msub><mi>&chi;</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0000795514640000013.GIF" wi="1362" he="260" /></maths>其中,I为单位矩阵,χ<sub>i</sub>为第i个人的所有身份向量ivector的加和向量;根据EM算法,得出已知后验概率P(β<sub>i</sub>|F<sub>i</sub>)的均值向量E(β<sub>i</sub>)下的每次说话人空间矩阵φ以及协方差矩阵Σ的更新公式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>&phi;</mi><mo>=</mo><mrow><mo>(</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>M</mi><mi>i</mi></msub></munderover><mrow><msup><mrow><mo>(</mo><mfrac><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mi>u</mi></mfrac><mo>)</mo></mrow><mi>v</mi></msup><msub><mi>&eta;</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mi>E</mi><msup><mrow><mo>(</mo><msub><mi>&beta;</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>T</mi></msup></mrow><mo>)</mo></mrow><msup><mrow><mo>(</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>M</mi><mi>i</mi></msub></munderover><mrow><msup><mrow><mo>(</mo><mfrac><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mi>u</mi></mfrac><mo>)</mo></mrow><mi>v</mi></msup><mi>E</mi><mrow><mo>(</mo><mrow><msub><mi>&beta;</mi><mi>i</mi></msub><msup><msub><mi>&beta;</mi><mi>i</mi></msub><mi>T</mi></msup></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup></mrow>]]></math><img file="FDA0000795514640000014.GIF" wi="1517" he="261" /></maths><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>&Sigma;</mi><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>M</mi><mi>i</mi></msub></msubsup><msup><mrow><mo>(</mo><mfrac><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mi>u</mi></mfrac><mo>)</mo></mrow><mi>v</mi></msup><msub><mi>&eta;</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><msup><msub><mi>&eta;</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mi>T</mi></msup><mo>-</mo><mi>E</mi><msup><mrow><mo>(</mo><msub><mi>&beta;</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><msup><mi>&phi;</mi><mi>T</mi></msup><mo>)</mo></mrow></mrow><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msub><mi>M</mi><mi>i</mi></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000795514640000015.GIF" wi="1098" he="236" /></maths>通过交替更新E(β<sub>i</sub>)和φ、Σ的值迭代直至收敛,取得最优的φ和Σ值,完成说话人识别中的概率线性鉴别分析模型的训练,得到训练好的概率线性鉴别分析模型;4)采用由步骤3)得到的训练好的概率线性鉴别分析模型对待鉴别的是语音进行鉴别。
地址 528300 广东省佛山市顺德区大良街道办广东顺德中山大学卡内基梅隆大学国际联合研究院