发明名称 |
多语种语音识别的声学模型建立方法和装置 |
摘要 |
本发明公开了一种多语种语音识别的声学模型建立方法和装置,所述方法包括:利用全部语音特征数据训练深度神经网络;利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层;以及将所述对应于不同语种的多个输出层合并成为总输出层。本发明公开的多语种语音识别的声学模型建立方法使用深度神经网络建立多语种语音识别的声学模型,实现了对多语种语音的识别,提高了语音识别的准确性。 |
申请公布号 |
CN103400577A |
申请公布日期 |
2013.11.20 |
申请号 |
CN201310332146.1 |
申请日期 |
2013.08.01 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
苏丹;尹钊 |
分类号 |
G10L15/06(2013.01)I;G10L15/18(2013.01)I |
主分类号 |
G10L15/06(2013.01)I |
代理机构 |
北京品源专利代理有限公司 11332 |
代理人 |
马晓亚 |
主权项 |
一种多语种语音识别的声学模型建立方法,其特征在于,包括:利用全部语音特征数据训练深度神经网络,其中,所述深度神经网络包括一个输入层、多个隐层以及对应于不同语种的多个输出层,所述输入层根据输入的语音特征数据计算输出至最底层的隐层的输出值,所述隐层根据本层的加权值对来自下一层的输入值进行加权求和,得到输出至下一层的输出值,所述输出层根据输出层的加权值对来自最上层的隐层的输入值进行加权求和,并根据所述加权求和的结果计算输出概率;利用不同语种的语音特征数据分别训练所述对应于不同语种的多个输出层;以及将所述对应于不同语种的多个输出层合并成为总输出层。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦三层 |