发明名称 |
一种声学语言模型训练方法和装置 |
摘要 |
本发明实施方式提出一种声学语言模型训练方法和装置。方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。本发明实施方式扩大了语言模型囊括的词汇数量,从而提高了语音识别系统的识别准确率。 |
申请公布号 |
CN103971677B |
申请公布日期 |
2015.08.12 |
申请号 |
CN201310040085.1 |
申请日期 |
2013.02.01 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
陆读羚;李露;饶丰;陈波;卢鲤;张翔;王尔玉;岳帅 |
分类号 |
G10L15/06(2013.01)I |
主分类号 |
G10L15/06(2013.01)I |
代理机构 |
北京德琦知识产权代理有限公司 11018 |
代理人 |
张驰;宋志强 |
主权项 |
一种声学语言模型训练方法,其特征在于,该方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |