发明名称 |
一种裁减语言模型的方法和装置 |
摘要 |
本发明提出一种裁减语言模型的方法和装置,其中方法包括:对训练语料数据进行Ngram统计,形成原始Ngram语言模型的Ngram列表,所述Ngram列表包括原始Ngram语言模型中的所有Ngram;针对Ngram列表中的每个Ngram,计算裁减掉该Ngram之后的Ngram语言模型与原始Ngram语言模型的概率分布之间的相对熵;删除至少一个所述Ngram列表中相对熵小的Ngram,得到裁剪后的Ngram语言模型。本发明能够降低裁减过程对Ngram语言模型性能的影响。 |
申请公布号 |
CN103164198A |
申请公布日期 |
2013.06.19 |
申请号 |
CN201110416974.4 |
申请日期 |
2011.12.14 |
申请人 |
深圳市腾讯计算机系统有限公司 |
发明人 |
周杨;肖镜辉;李露 |
分类号 |
G06F9/44(2006.01)I |
主分类号 |
G06F9/44(2006.01)I |
代理机构 |
北京德琦知识产权代理有限公司 11018 |
代理人 |
阎敏;宋志强 |
主权项 |
一种裁减语言模型的方法,其特征在于,所述方法包括:对训练语料数据进行Ngram统计,形成原始Ngram语言模型的Ngram列表,所述Ngram列表包括原始Ngram语言模型中的所有Ngram;针对Ngram列表中的每个Ngram,计算裁减掉该Ngram之后的Ngram语言模型与原始Ngram语言模型的概率分布之间的相对熵;删除至少一个所述Ngram列表中相对熵小的Ngram,得到裁剪后的Ngram语言模型。 |
地址 |
518057 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼 |