发明名称 语音识别的隐马尔可夫模型边缘化解码数据重建方法
摘要 本发明方法涉及到计算机技术应用技术。本发明利用隐马尔可夫模型(HMM)转移概率矩阵来描述语音特征矢量在时域上的动态特性,利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性,基于边缘化Viterbi解码过程的数据重建(VITDI)算法根据边缘化Viterbi解码过程估计产生语音特征矢量的最优状态序列,并基于最大后验概率估计(MAP)准则重建出“缺失矢量”。本发明算法较好的描述了相邻美子带特征之间的统计信息,并利用边缘化Viterbi解码过程估计产生语音特征矢量的全局最优状态序列,因此能够较好的重建出受噪声破坏的美子带特征,提高了语音识别系统的噪声鲁棒性能。
申请公布号 CN1201287C 申请公布日期 2005.05.11
申请号 CN03147473.X 申请日期 2003.07.14
申请人 中国科学院声学研究所 发明人 杜利民;罗宇
分类号 G10L15/20;//G10L 15∶14 主分类号 G10L15/20
代理机构 中科专利商标代理有限责任公司 代理人 周国城
主权项 1、一种语音识别的基于隐马尔可夫模型边缘化解码的数据重建方法,其特征在于,利用隐马尔可夫模型转移概率矩阵来描述语音特征矢量在时域上的动态特性,利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性,基于边缘化解码过程的数据重建算法,根据边缘化解码过程估计产生语音特征矢量的最优状态序列,并基于最大后验概率估计准则重建出“缺失矢量”;其中,基于边缘化解码过程的数据重建算法,按如下步骤进行:第一步,初始化:<maths num="001"><![CDATA[ <math><mrow><msub><mi>&delta;</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>a</mi><mi>i</mi></msub><msub><mi>b</mi><mi>i</mi></msub><mrow><mo>(</mo><msubsup><mi>s</mi><mn>1</mn><mi>o</mi></msubsup><mo>)</mo></mrow></mrow></math>]]></maths>                                    (1≤i≤L)                        ψ<sub>1</sub>(i)=0其中,δ<sub>1</sub>(i)表示系统时刻1处于状态i的概率;ψ<sub>1</sub>(i)表示系统上一时刻状态,取值为0即系统处于初始状态;a<sub>i</sub>表示初始状态为状态i的概率,b<sub>i</sub>(s<sub>1</sub><sup>o</sup>)表示系统处于状态i的情况下,观测到“可靠矢量”s<sub>1</sub><sup>o</sup>的概率,即b<sub>i</sub>(s<sub>1</sub>)对s<sub>1</sub><sup>o</sup>的边缘化概率:<maths num="002"><![CDATA[ <math><mrow><msub><mi>b</mi><mi>i</mi></msub><mrow><mo>(</mo><msubsup><mi>s</mi><mn>1</mn><mi>o</mi></msubsup><mo>)</mo></mrow><mo>=</mo><msub><mi>P</mi><msub><mi>Q</mi><mi>i</mi></msub></msub><mrow><mo>(</mo><msubsup><mi>S</mi><mn>1</mn><mi>o</mi></msubsup><mo>)</mo></mrow><mo>=</mo><msub><mrow><mo>&Integral;</mo><mi>P</mi></mrow><msub><mi>Q</mi><mi>i</mi></msub></msub><mrow><mo>(</mo><msub><mi>S</mi><mn>1</mn></msub><mo>)</mo></mrow><msup><mi>dS</mi><mi>m</mi></msup><mo>=</mo><msub><mrow><mo>&Integral;</mo><mi>P</mi></mrow><msub><mi>Q</mi><mi>i</mi></msub></msub><mrow><mo>(</mo><msubsup><mi>S</mi><mn>1</mn><mi>o</mi></msubsup><msup><mi>S</mi><mi>m</mi></msup><mo>)</mo></mrow><msup><mi>dS</mi><mi>m</mi></msup></mrow></math>]]></maths>其中,P<sub>Qi</sub>(S<sub>1</sub><sup>o</sup>)是系统处于状态i,高斯模型i产生“可靠矢量”s<sub>1</sub><sup>o</sup>的概率,P<sub>Qi</sub>(S<sub>1</sub>)和P<sub>Qi</sub>(S<sub>1</sub><sup>o</sup>S<sup>m</sup>)表示系统处于状态i,高斯模型i产生特征矢量S<sub>1</sub>的概率;第二步,递推:<img file="C031474730002C3.GIF" wi="1071" he="90" /><img file="C031474730002C4.GIF" wi="1036" he="97" />其中,δ<sub>t</sub>(i)表示系统时刻t处于状态i的最大概率;ψ<sub>t</sub>(i)表示系统t-1刻状态,取值为j,即系统上一状态处于状态j;A<sub>ij</sub>表示系统从状态i转移到状态j的概率,b<sub>j</sub>(s<sub>t</sub><sup>o</sup>)表示系统处于状态j的情况下,观测到“可靠矢量”s<sub>t</sub><sup>o</sup>的概率,即b<sub>j</sub>(s<sub>t</sub>)对s<sub>t</sub><sup>o</sup>的边缘化概率:<maths num="003"><![CDATA[ <math><mrow><msub><mi>b</mi><mi>j</mi></msub><mrow><mo>(</mo><msubsup><mi>s</mi><mi>t</mi><mi>o</mi></msubsup><mo>)</mo></mrow><mo>=</mo><msub><mi>P</mi><msub><mi>Q</mi><mi>j</mi></msub></msub><mrow><mo>(</mo><msubsup><mi>S</mi><mi>t</mi><mi>o</mi></msubsup><mo>)</mo></mrow><mo>=</mo><msub><mrow><mo>&Integral;</mo><mi>P</mi></mrow><msub><mi>Q</mi><mi>j</mi></msub></msub><mrow><mo>(</mo><msub><mi>S</mi><mi>t</mi></msub><mo>)</mo></mrow><msup><mi>dS</mi><mi>m</mi></msup><mo>=</mo><msub><mrow><mo>&Integral;</mo><mi>P</mi></mrow><msub><mi>Q</mi><mi>i</mi></msub></msub><mrow><mo>(</mo><msubsup><mi>S</mi><mi>t</mi><mi>o</mi></msubsup><msup><mi>S</mi><mi>m</mi></msup><mo>)</mo></mrow><msup><mi>dS</mi><mi>m</mi></msup></mrow></math>]]></maths>其中,P<sub>Qi</sub>(S<sub>t</sub><sup>o</sup>)是系统处于状态i,高斯模型i产生“可靠矢量”s<sub>t</sub><sup>o</sup>的概率,P<sub>Qi</sub>(S<sub>t</sub>)和P<sub>Qi</sub>(S<sub>t</sub><sup>o</sup>S<sup>m</sup>)表示系统处于状态i,高斯模型i产生特征矢量S<sub>t</sub>的概率;第三步,终止:<img file="C031474730003C1.GIF" wi="288" he="75" /><img file="C031474730003C2.GIF" wi="355" he="84" />第四步,回溯,获取最优状态序列:<maths num="004"><![CDATA[ <math><mrow><msubsup><mi>q</mi><mi>t</mi><mo>*</mo></msubsup><mo>=</mo><msub><mi>&psi;</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><msubsup><mi>q</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow><mo>*</mo></msubsup><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mi>t</mi><mo>=</mo><mi>T</mi><mo>-</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,q<sub>t</sub><sup>*</sup>表示系统t-1刻状态,取值为j,即系统t-1时刻处于状态j;第五步,最大后验概率估计重建“缺失矢量”:在时刻t,S<sub>t</sub>所属状态x<sub>t</sub>确定后,基于最大概率准则重建“缺失矢量”的实质是估计“缺失矢量”S<sub>t</sub><sup>m</sup>,使状态x<sub>t</sub>产生语音特征矢量S=[S<sub>t</sub><sup>o</sup>S<sub>t</sub><sup>m</sup>]的概率b<sub>xt</sub>(S<sub>t</sub><sup>o</sup>S<sub>t</sub><sup>m</sup>)最大:<maths num="005"><![CDATA[ <math><mrow><msubsup><mover><mi>S</mi><mo>^</mo></mover><mi>t</mi><mi>m</mi></msubsup><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><msup><mi>S</mi><mi>m</mi></msup></munder><mrow><mo>(</mo><msub><mi>b</mi><msub><mi>x</mi><mi>t</mi></msub></msub><mrow><mo>(</mo><msubsup><mi>S</mi><mi>t</mi><mi>o</mi></msubsup><msubsup><mi>S</mi><mi>t</mi><mi>m</mi></msubsup><mo>)</mo></mrow><mo>)</mo></mrow></mrow></math>]]></maths>在每个状态下,特征矢量分布为单高斯分布,即:<maths num="006"><![CDATA[ <math><mrow><msub><mi>b</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>P</mi><msub><mi>Q</mi><mi>i</mi></msub></msub><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>exp</mi><mo>{</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><mi>S</mi><mo>-</mo><msub><mi>&mu;</mi><mi>t</mi></msub><mo>)</mo></mrow><mi>t</mi></msup><msubsup><mi>&theta;</mi><mi>i</mi><mrow><mo>-</mo><mn>1</mn></mrow></msubsup><mrow><mo>(</mo><mi>S</mi><mo>-</mo><msub><mi>&mu;</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>}</mo></mrow><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mfrac><mi>n</mi><mn>2</mn></mfrac></msup><msup><mrow><mo>|</mo><msub><mi>&theta;</mi><mi>i</mi></msub><mo>|</mo></mrow><mfrac><mn>1</mn><mn>2</mn></mfrac></msup></mrow></mfrac></mrow></math>]]></maths>其中,n是语音特征矢量维数,μ<sub>i</sub>,θ<sub>i</sub>是隐马尔可夫模型中第i个状态的均值矢量和协方差矩阵1≤i≤L;根据状态分布为单高斯分布假设,求解,得到:<maths num="007"><![CDATA[ <math><mrow><msubsup><mover><mi>S</mi><mo>^</mo></mover><mi>t</mi><mi>m</mi></msubsup><mo>=</mo><msub><mi>&mu;</mi><mrow><msub><mi>x</mi><mi>t</mi></msub><mi>m</mi></mrow></msub><mo>+</mo><msub><mi>&theta;</mi><mrow><msub><mi>x</mi><mi>t</mi></msub><mi>mo</mi></mrow></msub><msubsup><mi>&theta;</mi><mrow><msub><mi>x</mi><mi>t</mi></msub><mi>oo</mi></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msubsup><mrow><mo>(</mo><msup><mi>S</mi><mi>o</mi></msup><mo>-</mo><msub><mi>&mu;</mi><mrow><msub><mi>x</mi><mi>t</mi></msub><mi>o</mi></mrow></msub><mo>)</mo></mrow></mrow></math>]]></maths>其中,x<sub>t</sub>表示系统在时刻t系统所处的状态;μ<sub>xto</sub>表示状态x<sub>t</sub>下,“可靠矢量”的均值矢量;μ<sub>xtm</sub>表示状态x<sub>t</sub>下,“缺失矢量”的均值矢量;θ<sub>xtoo</sub>表示状态x<sub>t</sub>下,“可靠矢量”的协方差矩阵;θ<sub>xtmo</sub>表示状态x<sub>t</sub>下,“可靠矢量”和“缺失矢量”间的协方差矩阵;第六步,得到重建后的完整矢量:<maths num="008"><![CDATA[ <math><mrow><msub><mover><mi>S</mi><mo>^</mo></mover><mi>t</mi></msub><mo>=</mo><mo>&lsqb;</mo><msup><msub><mi>S</mi><mi>t</mi></msub><mi>o</mi></msup><msup><msub><mover><mi>S</mi><mo>^</mo></mover><mi>t</mi></msub><mi>m</mi></msup><mo>&rsqb;</mo><mo>;</mo></mrow></math>]]></maths>算法步骤中所列<img file="C031474730003C8.GIF" wi="520" he="93" />其中,ψ<sub>t+1</sub>(j)表示从时刻1到时刻t+1最优状态序列中,t时刻所处的状态x<sub>t</sub>的编号。
地址 100080北京市海淀区中关村路17号