一种声学语言模型训练方法和装置,申请号CN201310040085.1-传众专利搜索

发明名称	一种声学语言模型训练方法和装置
摘要	本发明实施方式提出一种声学语言模型训练方法和装置。方法包括：利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；利用该有类别标签的第二分词数据获取声学语言模型。本发明实施方式扩大了语言模型囊括的词汇数量，从而提高了语音识别系统的识别准确率。
申请公布号	CN103971677B	申请公布日期	2015.08.12
申请号	CN201310040085.1	申请日期	2013.02.01
申请人	腾讯科技（深圳）有限公司	发明人	陆读羚;李露;饶丰;陈波;卢鲤;张翔;王尔玉;岳帅
分类号	G10L15/06(2013.01)I	主分类号	G10L15/06(2013.01)I
代理机构	北京德琦知识产权代理有限公司 11018	代理人	张驰;宋志强
主权项	一种声学语言模型训练方法，其特征在于，该方法包括：利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；利用该有类别标签的第二分词数据获取声学语言模型。
地址	518044 广东省深圳市福田区振兴路赛格科技园2栋东403室