发明名称 |
统计声学模型的自适应方法、适于统计声学模型的自适应的声学模型的学方法、存储用于构建深度神经网络的参数的存储介质及用于进行统计声学模型的自适应的计算机程序 |
摘要 |
提供一种有效进行利用特定条件的学数据执行了DNN的声学模型的自适应且可提高精度的统计声学模型的自适应方法。在采用了DNN的声学模型的说话人自适应方法中,包括:第1存储装置分别存储不同的说话人的讲话数据(90~98)的步骤;准备按说话人区分的隐藏层模块(112~120)的步骤;在切换选择讲话数据(90~98)的同时,一面用与选出的讲话数据相对应的隐藏层模块(112~120)动态地置换特定层(110),一面进行针对DNN(80)的所有层(42、44、110、48、50、52、54)的准备性学的步骤;用初始隐藏层置换已完成准备性学的DNN的特定层(110)的步骤;和将初始隐藏层以外的层的参数固定,采用特定说话人的声音数据进行DNN的学的步骤。 |
申请公布号 |
CN105745700A |
申请公布日期 |
2016.07.06 |
申请号 |
CN201480063686.7 |
申请日期 |
2014.11.06 |
申请人 |
国立研究开发法人情报通信研究机构 |
发明人 |
松田繁树;卢绪刚 |
分类号 |
G10L15/07(2006.01)I;G06N3/00(2006.01)I;G06N3/08(2006.01)I;G10L15/16(2006.01)I |
主分类号 |
G10L15/07(2006.01)I |
代理机构 |
中科专利商标代理有限责任公司 11021 |
代理人 |
刘文海 |
主权项 |
一种针对特定条件的声音识别用的统计声学模型的自适应方法,其特征在于,所述声学模型是使用了深度神经网络、即DNN的声学模型,该DNN包含3层以上的多个层,该自适应方法包括:计算机可读取的第1存储装置分别存储多个条件下的讲话数据的步骤;计算机准备与所述多个条件相应的按多个条件区分的隐藏层模块的步骤;计算机在切换选择所述多个条件下的讲话数据的同时,一面用与选出的讲话数据相对应的隐藏层模块动态地置换所述多个层内的特定层,一面进行针对所述DNN的所有层的准备性学习的步骤;计算机用预先准备的初始隐藏层置换进行所述准备性学习的步骤中的学习已完成的所述DNN的所述特定层的步骤;计算机可读取的第2存储装置存储自适应对象的条件下的声音数据的步骤;和将通过进行置换的步骤得到的DNN的所述初始隐藏层以外的层的参数固定,从所述第2存储装置读出所述自适应对象的条件下的声音数据,进行所述DNN的学习的步骤。 |
地址 |
日本国东京都 |