发明名称 非特定人的嵌入式中英文混合语音识别方法及系统
摘要 一种非特定人的、支持中英文混合语言、面向嵌入式应用的语音识别方法及系统。本发明采用海量语音数据训练的声学模型,兼容中文和英文发音方式的声学建模单元集,从而实现非特定人的中英文混合语音识别。本发明采用多个背景模型,由背景模型进行均值自适应训练得到混合高斯模型(GMM)参数,然后再对混合高斯模型(GMM)均值与背景模型均值的差值向量进行矢量量化,压缩模型参数;在识别阶段,使用快速高斯选择、声学得分预运算、以及简化GMM模型,从而大幅降低识别的计算量和模型的存储空间,使得本语音识别方法及系统可以在各种嵌入式应用系统上使用。
申请公布号 CN101604522B 申请公布日期 2011.09.28
申请号 CN200910157598.4 申请日期 2009.07.16
申请人 北京森博克智能科技有限公司 发明人 王辉
分类号 G10L15/26(2006.01)I;G10L15/14(2006.01)I 主分类号 G10L15/26(2006.01)I
代理机构 代理人
主权项 非特定人的嵌入式中英文混合语音识别方法,是一种非特定人的、支持中英文混合语言、面向计算和存储资源有限的嵌入式应用环境的语音识别方法,本方法由声学模型训练、词树生成、前端处理、及识别解码四个部分组成,其特征在于:兼容中文和英文发音方式的声学建模单元集,基于海量语音数据训练的声学模型,使得非特定人的嵌入式中英文混合语音识别方法是非特定人的、并支持中英文语言混合识别;采用二叉树形式组织的多背景模型,然后将声学模型中混合高斯模型(GMM)的每个混合项与多背景模型中的一个按最大似然准则绑定,对背景模型进行均值自适应训练得到混合项的均值参数,并将其与背景模型均值相减得到两者的差值向量;在自适应训练完成后,对所有的差值向量进行矢量量化,并用混合系数、绑定的背景模型标号、与背景模型均值的差值向量标号三个信息表达GMM模型的每个混合项;用最大混合项得分代替混合概率相加来计算GMM模型的声学得分,从而简化GMM模型,依据简化的GMM模型,对GMM模型的参数进行预运算,并保存为新的混合系数参数,减少计算GMM模型声学得分时的计算量;识别解码阶段,对每一帧声学特征,首先计算其所有背景模型的声学得分,并对背景模型按声学得分高低排序,然后在二叉树上自上而下地对背景模型的声学得分进行退化处理,具体方法是:令根节点背景模型的退化得分等于其声学得分,如果子节点的声学得分低于父节点的退化得分,则将子节点的退化得分设为父节点的退化得分,否则子节点的退化得分等于其声学得分;接下来计算所有由一个背景模型和矢量量化表中的一个差值向量所确定的高斯模型的声学得分,并将该声学得分保存于高斯得分缓存中,具体做法是:选择声学得分较高的若干个背景模型、以及其所有子节点背景模型,计算矢量量化表中每个差值向量与背景模型对应的声学得分差值,将该声学得分差值与背景模型的声学得分相加,得到对应高斯模型的声学得分,如果该得分小于背景模型的退化得分,则将该高斯模型的声学得分修改为背景模型的退化得分,并将之保存到高斯得分缓存中;对其余的背景模型,其跟矢量量化表中的任一差值向量所确定的高斯模型的声学得分不再运算,直接将对应的高斯得分缓存设为背景模型的退化得分;然后利用背景模型声学得分排序信息、及GMM模型与背景模型的绑定信息进行快速高斯选择,在计算GMM模型的声学得分时,仅计算该GMM模型的若干个候选混合项的声学得分,GMM模型某混合项的声学得分的计算方法是:根据该混合项绑定的背景模型标号、与背景模型均值的差值向量标号,从高斯得分缓存中读取该混合项的高斯模型声学得分,将 该得分与混合项的混合系数相加,即得到该混合项的声学得分;最后用最大混合项得分代替混合概率相加来计算GMM模型的声学得分,从而简化GMM模型,避免计算量较大的指数运算和对数运算。
地址 100094 北京市海淀区东北旺北京中关村软件园孵化器2号楼2240