发明名称 语音识别系统中的置信度快速求取方法
摘要 本发明涉及一种用于语音识别系统的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据状态图、声学模型和该帧语音的特征向量,计算每一帧语音对应于状态图中每一个状态的似然概率p(xt/sj);按照帧号和状态号存储似然概率p(xt/sj);根据似然概率p(xt/sj)对状态进行剪枝;计算剪枝后声学空间的似然概率和以及广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。现有技术中,需要在进行音素搜索得到音素候选后,为计算置信度再使用不同的声学模型进行第二次搜索,而本发明是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用相同的声学模型计算置信度,因此只需进行一次搜索,节省了系统的运行时间和计算的复杂度。
申请公布号 CN101118745B 申请公布日期 2011.01.19
申请号 CN200610089135.5 申请日期 2006.08.04
申请人 中国科学院声学研究所;北京中科信利技术有限公司 发明人 董滨;赵庆卫;颜永红
分类号 G10L15/20(2006.01)I;G10L21/02(2006.01)I;G10L15/00(2006.01)I 主分类号 G10L15/20(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 11280 代理人 王凤华
主权项 1.一种语音识别系统中的置信度快速求取方法,其特征在于,包括如下步骤:1)将待识别语音输入语音识别系统中;2)对输入语音进行预处理,该预处理中包括分帧处理;3)提取每一帧语音的MFCC特征向量;4)遍历所有语音帧,对于每一帧语音,根据语音识别系统中状态图和声学模型与该帧语音自身的MFCC特征向量计算该帧语音对应于状态图中每一个状态的似然概率p(x<sub>t</sub>/s<sub>j</sub>),该似然概率的负对数<img file="FSB00000268169600011.GIF" wi="1562" he="109" />,其中x<sub>t</sub>是语音帧的特征向量,μ<sub>j</sub>和∑<sub>j</sub>分别是状态s<sub>j</sub>的均值矢量和协方差矩阵,n是特征向量的维数;5)按照当前语音的帧号和状态号存储步骤4)中得出的似然概率p(x<sub>t</sub>/s<sub>j</sub>);6)判断当前指针是否指向状态图中的虚节点,如果判断为是,则进入步骤7);如判断为否,则对当前状态进行剪枝;所述虚节点是状态图中一个音素结束的标志;7)计算剪枝后声学空间的似然概率和<img file="FSB00000268169600012.GIF" wi="288" he="109" />其中,D<sup>*</sup>是剪枝后状态图中保留下来的所有状态的集合;8)计算广义后验概率<img file="FSB00000268169600013.GIF" wi="570" he="178" />9)计算每个音素的广义后验概率<img file="FSB00000268169600014.GIF" wi="1172" he="138" />,将音素的广义后验概率作为该音素的置信度得分;其中,N是组成每个马尔可夫模型的状态数;τ<sub>b</sub>[j]、τ<sub>e</sub>[j]分别指语音输入数据在当前状态的起始帧号和结束帧号,j是状态号。 
地址 100080 北京市海淀区北四环西路21号