发明名称 一种声学语言模型训练方法和装置
摘要 本发明实施方式提出一种声学语言模型训练方法和装置。方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。本发明实施方式扩大了语言模型囊括的词汇数量,从而提高了语音识别系统的识别准确率。
申请公布号 CN103971677B 申请公布日期 2015.08.12
申请号 CN201310040085.1 申请日期 2013.02.01
申请人 腾讯科技(深圳)有限公司 发明人 陆读羚;李露;饶丰;陈波;卢鲤;张翔;王尔玉;岳帅
分类号 G10L15/06(2013.01)I 主分类号 G10L15/06(2013.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 张驰;宋志强
主权项 一种声学语言模型训练方法,其特征在于,该方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室