发明名称 语音识别系统中的置信度快速求取方法
摘要 本发明涉及一种用于语音识别系统的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据状态图、声学模型和该帧语音的特征向量,计算每一帧语音对应于状态图中每一个状态的似然概率p(x<SUB>t</SUB>/s<SUB>j</SUB>);按照帧号和状态号存储似然概率p(x<SUB>t</SUB>/s<SUB>j</SUB>);根据似然概率p(x<SUB>t</SUB>/s<SUB>j</SUB>)对状态进行剪枝;计算剪枝后声学空间的似然概率和以及广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。现有技术中,需要在进行音素搜索得到音素候选后,为计算置信度再使用不同的声学模型进行第二次搜索,而本发明是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用相同的声学模型计算置信度,因此只需进行一次搜索,节省了系统的运行时间和计算的复杂度。
申请公布号 CN101118745A 申请公布日期 2008.02.06
申请号 CN200610089135.5 申请日期 2006.08.04
申请人 中国科学院声学研究所;北京中科信利技术有限公司 发明人 董滨;赵庆卫;颜永红
分类号 G10L15/20(2006.01);G10L21/02(2006.01);G10L15/00(2006.01) 主分类号 G10L15/20(2006.01)
代理机构 北京泛华伟业知识产权代理有限公司 代理人 王凤华
主权项 1.一种语音识别系统中的置信度快速求取方法,其特征在于,包括如下步骤:1)将待识别语音输入语音识别系统中;2)对输入语音进行预处理,该预处理中包括分帧处理;3)提取每一帧语音的MFCC特征向量;4)遍历所有语音帧,对于每一帧语音,根据语音识别系统中状态图和声学模型与该帧语音自身的MFCC特征向量计算该帧语音对应于状态图中每一个状态的似然概率p(xt/sj),该似然概率的负对数<mrow><mo>-</mo><mi>ln</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>/</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>d</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>,</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>[</mo><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>-</mo><msub><mi>&mu;</mi><mi>j</mi></msub><mo>)</mo></mrow><msubsup><mi>&Sigma;</mi><mi>j</mi><mrow><mo>-</mo><mn>1</mn></mrow></msubsup><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>-</mo><msub><mi>&mu;</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>n</mi><mi>ln</mi><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mo>+</mo><mi>ln</mi><mrow><mo>(</mo><mo>|</mo><msub><mi>&Sigma;</mi><mi>j</mi></msub><mo>|</mo><mo>)</mo></mrow><mo>]</mo></mrow> 其中xt是语音帧的特征向量,μj和∑j分别是状态sj的均值矢量和协方差矩阵,n是特征向量的维数;5)按照当前语音的帧号和状态号存储步骤4)中得出的似然概率p(xt/sj);6)判断当前指针是否指向状态图中的虚节点,如果判断为是,则进入步骤7);如判断为否,则对当前状态进行剪枝;所述虚节点是状态图中一个音素结束的标志;7)计算剪枝后声学空间的似然概率和 <mrow><munder><mi>&Sigma;</mi><mrow><msub><mi>s</mi><mi>j</mi></msub><mo>&Element;</mo><msup><mi>D</mi><mo>*</mo></msup></mrow></munder><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>|</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow> 其中,D*是剪枝后状态图中保留下来的所有状态的集合;8)计算广义后验概率 <mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>j</mi></msub><mo>|</mo><msub><mi>x</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>|</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><munder><mi>&Sigma;</mi><mrow><msub><mi>s</mi><mi>j</mi></msub><mo>&Element;</mo><msup><mi>D</mi><mo>*</mo></msup></mrow></munder><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>|</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow> 9)计算每个音素的广义后验概率<mrow><mi>p</mi><mrow><mo>(</mo><mi>PH</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mfrac><mn>1</mn><mrow><msub><mi>&tau;</mi><mi>e</mi></msub><mo>[</mo><mi>j</mi><mo>]</mo><mo>-</mo><msub><mi>&tau;</mi><mi>b</mi></msub><mo>[</mo><mi>j</mi><mo>]</mo><mo>+</mo><mn>1</mn></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><msub><mi>&tau;</mi><mi>b</mi></msub><mo>[</mo><mi>j</mi><mo>]</mo></mrow><mrow><msub><mi>&tau;</mi><mi>e</mi></msub><mo>[</mo><mi>j</mi><mo>]</mo></mrow></munderover><mi>log</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>j</mi></msub><mo>/</mo><msub><mi>x</mi><mi>t</mi></msub><mo>)</mo></mrow></mrow> 将音素的广义后验概率作为该音素的置信度得分;其中,N是组成每个马尔可夫模型的状态数。τb[j]、τe[j]分别指语音输入数据在当前状态的起始帧号和结束帧号,j是状态号。
地址 100080北京市海淀区北四环西路21号