发明名称 使用可变长度语境的语音识别
摘要 用于使用可变长度的语境来识别语音的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。接收语音数据和标识该语音数据的候选转录的数据。访问所述候选转录的语音表达。提取针对所述语音表达中的特定音素的多个测试序列。所述多个测试序列中的每个测试序列包括围绕所述特定音素的不同的语境音素集。接收指示声学模型包括与所述多个测试序列中的一个或多个测试序列相对应的数据的数据。从所述一个或多个测试序列之中选择包括最高数目的语境音素的测试序列。基于来自所述语音模型的对应于选定的测试序列的数据来生成候选转录的得分。
申请公布号 CN103650033B 申请公布日期 2016.10.26
申请号 CN201280031754.2 申请日期 2012.06.29
申请人 谷歌公司 发明人 C·I·西普里安;徐鹏;F·佩雷拉
分类号 G10L15/187(2013.01)I 主分类号 G10L15/187(2013.01)I
代理机构 北京市金杜律师事务所 11256 代理人 酆迅
主权项 一种用于使用可变长度语境识别语音的系统,包括:一个或多个计算机和存储指令的一个或多个存储设备,所述指令当由所述一个或多个计算机执行时,可操作用于使得所述一个或多个计算机执行如下操作,包括:接收语音数据和标识所述语音数据的转录的数据;访问所述转录的语音表达;从所述语音表达提取针对所述语音表达中的特定音素的训练序列,每个所述训练序列包括围绕所述特定音素的不同的语境音素集;基于出现在每个所述训练序列中的音素序列来标识分区键;从多个处理模块之中选择标识的分区键被分配到的处理模块,所述处理模块被指定用于训练对应于所述标识的分区键的声学模型的一部分;以及向选定的处理模块传送标识所述训练序列的数据和对应于包括最多语境音素的所述训练序列的所述语音数据的一部分。
地址 美国加利福尼亚州