发明名称 语音识别中状态结构调整方法
摘要 一种语音识别领域的语音识别中状态结构调整方法,具体步骤如下:建立大词汇量连续语音识别系统:语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39;状态结构调整:包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整,假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而利用训练语料对剩余状态的结构进行调整;说话人自适应:采用最大似然线性回归算法,利用自适应语料对调整后的模型做自适应。本发明提高了模型对样本的后验概率,增强对自适应语料的利用率,从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。
申请公布号 CN1588536A 申请公布日期 2005.03.02
申请号 CN200410066792.9 申请日期 2004.09.29
申请人 上海交通大学 发明人 朱杰;徐向华
分类号 G10L15/06;G10L15/00 主分类号 G10L15/06
代理机构 上海交达专利事务所 代理人 王锡麟;王桂忠
主权项 1、一种语音识别中状态结构调整方法,其特征在于,根据状态间混淆度,采用混淆状态间高斯加权共享对状态结构进行调整,具体步骤如下:(1)建立大词汇量连续语音识别系统:语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39,过程同一般语音识别,提取训练语音每句话的特征,根据句子内容利用HTK工具首先选择声母和带调韵母作为基本的建模单元,建立带调单音子模型;然后将模型由单音子扩展到上下文相关的三音子模型,三音子模型同时考虑了音节间左右声韵母的情况,语境与三音子模型相对应;最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类,聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布;(2)状态结构调整:包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整,自适应语音和测试语音来自同一个测试者,基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现,因此,假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而利用训练语料对剩余状态的结构进行调整;(3)说话人自适应:采用最大似然线性回归算法,利用自适应语料对调整后的模型做自适应。
地址 200240上海市闵行区东川路800号