语音识别系统中的置信度快速求取方法,申请号CN200610089135.5-传众专利搜索

发明名称	语音识别系统中的置信度快速求取方法
摘要	本发明涉及一种用于语音识别系统的置信度快速求取方法，包括：预处理分帧；提取每帧语音的语音特征；根据状态图、声学模型和该帧语音的特征向量，计算每一帧语音对应于状态图中每一个状态的似然概率p(x<SUB>t</SUB>/s<SUB>j</SUB>)；按照帧号和状态号存储似然概率p(x<SUB>t</SUB>/s<SUB>j</SUB>)；根据似然概率p(x<SUB>t</SUB>/s<SUB>j</SUB>)对状态进行剪枝；计算剪枝后声学空间的似然概率和以及广义后验概率；计算每个音素的广义后验概率并将其作为置信度得分。现有技术中，需要在进行音素搜索得到音素候选后，为计算置信度再使用不同的声学模型进行第二次搜索，而本发明是一种同步计算方法，是在识别器进行帧同步束搜索的过程中，使用相同的声学模型计算置信度，因此只需进行一次搜索，节省了系统的运行时间和计算的复杂度。
申请公布号	CN101118745A	申请公布日期	2008.02.06
申请号	CN200610089135.5	申请日期	2006.08.04
申请人	中国科学院声学研究所;北京中科信利技术有限公司	发明人	董滨;赵庆卫;颜永红
分类号	G10L15/20(2006.01);G10L21/02(2006.01);G10L15/00(2006.01)	主分类号	G10L15/20(2006.01)
代理机构	北京泛华伟业知识产权代理有限公司	代理人	王凤华
主权项	1.一种语音识别系统中的置信度快速求取方法，其特征在于，包括如下步骤：1)将待识别语音输入语音识别系统中；2)对输入语音进行预处理，该预处理中包括分帧处理；3)提取每一帧语音的MFCC特征向量；4)遍历所有语音帧，对于每一帧语音，根据语音识别系统中状态图和声学模型与该帧语音自身的MFCC特征向量计算该帧语音对应于状态图中每一个状态的似然概率p(xt/sj)，该似然概率的负对数<mrow><mo>-</mo><mi>ln</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>/</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>d</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>,</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>[</mo><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>-</mo><msub><mi>μ</mi><mi>j</mi></msub><mo>)</mo></mrow><msubsup><mi>Σ</mi><mi>j</mi><mrow><mo>-</mo><mn>1</mn></mrow></msubsup><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>-</mo><msub><mi>μ</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>n</mi><mi>ln</mi><mrow><mo>(</mo><mn>2</mn><mi>π</mi><mo>)</mo></mrow><mo>+</mo><mi>ln</mi><mrow><mo>(</mo><mo>\|</mo><msub><mi>Σ</mi><mi>j</mi></msub><mo>\|</mo><mo>)</mo></mrow><mo>]</mo></mrow> 其中xt是语音帧的特征向量，μj和∑j分别是状态sj的均值矢量和协方差矩阵，n是特征向量的维数；5)按照当前语音的帧号和状态号存储步骤4)中得出的似然概率p(xt/sj)；6)判断当前指针是否指向状态图中的虚节点，如果判断为是，则进入步骤7)；如判断为否，则对当前状态进行剪枝；所述虚节点是状态图中一个音素结束的标志；7)计算剪枝后声学空间的似然概率和 <mrow><munder><mi>Σ</mi><mrow><msub><mi>s</mi><mi>j</mi></msub><mo>&Element;</mo><msup><mi>D</mi><mo></mo></msup></mrow></munder><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>\|</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow> 其中，D是剪枝后状态图中保留下来的所有状态的集合；8)计算广义后验概率 <mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>j</mi></msub><mo>\|</mo><msub><mi>x</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>\|</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><munder><mi>Σ</mi><mrow><msub><mi>s</mi><mi>j</mi></msub><mo>&Element;</mo><msup><mi>D</mi><mo>*</mo></msup></mrow></munder><mi>p</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>\|</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow> 9)计算每个音素的广义后验概率<mrow><mi>p</mi><mrow><mo>(</mo><mi>PH</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mfrac><mn>1</mn><mrow><msub><mi>τ</mi><mi>e</mi></msub><mo>[</mo><mi>j</mi><mo>]</mo><mo>-</mo><msub><mi>τ</mi><mi>b</mi></msub><mo>[</mo><mi>j</mi><mo>]</mo><mo>+</mo><mn>1</mn></mrow></mfrac><munderover><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><msub><mi>τ</mi><mi>b</mi></msub><mo>[</mo><mi>j</mi><mo>]</mo></mrow><mrow><msub><mi>τ</mi><mi>e</mi></msub><mo>[</mo><mi>j</mi><mo>]</mo></mrow></munderover><mi>log</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>j</mi></msub><mo>/</mo><msub><mi>x</mi><mi>t</mi></msub><mo>)</mo></mrow></mrow> 将音素的广义后验概率作为该音素的置信度得分；其中，N是组成每个马尔可夫模型的状态数。τb[j]、τe[j]分别指语音输入数据在当前状态的起始帧号和结束帧号，j是状态号。
地址	100080北京市海淀区北四环西路21号