发明名称 一种车载语音交互系统
摘要 本发明公开了一种车载语音交互系统,包括语音采集模块、语音识别核心模块和语音反馈模块,所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表;所述上下文不相关文法模块,用于构建待识别的自然连续语音的文法和规则结构;所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。本发明实现用自然语音(包括命令短语、连接词和具有一定规则的连续语音)对车载信息系统的控制和操作,提高了驾车的安全性能并实现了车载信息系统中与汽车安全行驶和动力性能无关的智能人机交互。
申请公布号 CN101281745B 申请公布日期 2011.08.10
申请号 CN200810067356.1 申请日期 2008.05.23
申请人 深圳市北科瑞声科技有限公司;深港产学研基地产业发展中心 发明人 刘轶;杨永胜
分类号 G10L15/00(2006.01)I;G10L15/08(2006.01)I;G10L15/06(2006.01)I;G10L15/20(2006.01)I;G10L15/18(2006.01)I;G10L11/02(2006.01)I 主分类号 G10L15/00(2006.01)I
代理机构 广州华进联合专利商标代理有限公司 44224 代理人 曾旻辉
主权项 一种车载语音交互系统,包括语音采集模块,用于采集模拟语音信号,并转换成数字语音信号;语音识别核心模块,用于对输入的数字语音信号进行概率计算和搜索匹配,得到语音识别结果;语音反馈模块,用于将所述语音识别结果以文本或语音的方式与用户交互,其特征在于:所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音变化特点的映射对应表;所述上下文不相关文法模块用于构建待识别的自然连续语音的文法和规则结构;所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化;在所述声学模型和发音字典模块中:根据统计算法建立一套对应于口音变化特点的映射对应表;上下文相关和上下文不相关的单元混合使用,并采用有效的自适应和平滑算法;对声学模型建立和发音字典生成采用离线生成的方式,对传统的声学单元进行分类处理;上下文不相关文法模块,用于构建待识别的自然连续语音的文法和规则结构;所述上下文不相关文法模块包括规则单元和子规则单元,通过使用正则表达式语言来描述自然语言;在所述路径搜索模块中:采用概率动态剪枝的方法进行路径搜索识别,对设计路径动态扩展算法和/或多高斯分布近似简化成单高斯计算进行近似简化;根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧以及高斯分布有选择计算的算法;所述语音识别核心模块还包括口音处理模块,从训练数据和样本中,利用统计方法得出适应口音处理的模型,并结合声学模型进行重建:基于口音和发音特点的变化,建立辅助决策树声学聚类模型,通过辅助决策树中参数信息描述实际语音中各种变化的特征,再通过声学模型重建,将该特征通过高斯分布和声学参数引入;基于统计的数据驱动方法找出训练数据中的发音变异映射,并利用置信度测量对其过滤;对语音层发音变异混淆度度量,用非对称距离度量准则对声学层发音变异混淆度度量,根据声学层和语音层混淆度高低的分类信息,在语音识别系统中建立选择性多发音字典和采用声学模型重建的方法处理多口音和混合口音中的发音变异。
地址 518057 广东省深圳市南山区高新南环路29号留学生创业大厦1004室