发明名称 |
一种发音稳定段辅助的语音识别优化解码方法及装置 |
摘要 |
本发明公开了一种基于发音稳定段的语音识别解码方法。针对语音识别解码过程复杂度较高的问题,本发明提出利用语音的稳定性信息改善解码过程中路径扩展的方式,达到降低解码复杂度的目的。本发明的方案包括下列步骤:对语音信号计算语谱图;计算语音信号的分频带能量及其变化率;定位语音信号中能量发生跳变的时间点;获取语音的发音稳定段;根据解码过程中路径扩展发生的位置,将扩展划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型内部各状态间的扩展两类;跟踪语音识别解码过程,定位隐马尔科夫模型之间的扩展;在发音稳定段,删除原解码框架下的隐马尔科夫模型之间的扩展,只允许路径在隐马尔科夫模型内部各状态间进行扩展。 |
申请公布号 |
CN103021408A |
申请公布日期 |
2013.04.03 |
申请号 |
CN201210514763.9 |
申请日期 |
2012.12.04 |
申请人 |
中国科学院自动化研究所 |
发明人 |
刘文举;杨占磊 |
分类号 |
G10L15/14(2006.01)I;G10L19/02(2013.01)I |
主分类号 |
G10L15/14(2006.01)I |
代理机构 |
中科专利商标代理有限责任公司 11021 |
代理人 |
宋焰琴 |
主权项 |
一种基于发音稳定段的语音识别解码方法,包括下列步骤:步骤一、获取语音信号在时频域上的能量分布并根据语音信号在时频域上的能量分布,计算获得语音信号的分频带能量曲线,以及分频带能量随时间的变化率曲线;步骤二、由所述分频带能量曲线及分频带能量随时间的变化率曲线,确定语音信号能量发生跳变的跳变点;步骤三、对任一跳变点p,设定一时长r,定义跳变点p附近的[p‑r,p+r]区域为语音信号的非平稳段区域,未被划定为非平稳段区域的部分为发音稳定段区域;步骤四、在语音识别解码过程中,若当前帧在所述发音稳定段区域,且前一帧到当前帧的路径扩展为发生在隐马尔科夫模型之间的扩展,则不执行该路径的扩展,否则执行该路径的扩展;其中根据路径的扩展在隐马尔科夫模型中发生的位置,所述前一帧到当前帧的路径扩展被划分为隐马尔科夫模型之间的扩展,以及隐马尔科夫模型的内部扩展两类。 |
地址 |
100190 北京市海淀区中关村东路95号 |