发明名称 一种裁减语言模型的方法和装置
摘要 本发明提出一种裁减语言模型的方法和装置,其中方法包括:对训练语料数据进行Ngram统计,形成原始Ngram语言模型的Ngram列表,所述Ngram列表包括原始Ngram语言模型中的所有Ngram;针对Ngram列表中的每个Ngram,计算裁减掉该Ngram之后的Ngram语言模型与原始Ngram语言模型的概率分布之间的相对熵;删除至少一个所述Ngram列表中相对熵小的Ngram,得到裁剪后的Ngram语言模型。本发明能够降低裁减过程对Ngram语言模型性能的影响。
申请公布号 CN103164198A 申请公布日期 2013.06.19
申请号 CN201110416974.4 申请日期 2011.12.14
申请人 深圳市腾讯计算机系统有限公司 发明人 周杨;肖镜辉;李露
分类号 G06F9/44(2006.01)I 主分类号 G06F9/44(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 阎敏;宋志强
主权项 一种裁减语言模型的方法,其特征在于,所述方法包括:对训练语料数据进行Ngram统计,形成原始Ngram语言模型的Ngram列表,所述Ngram列表包括原始Ngram语言模型中的所有Ngram;针对Ngram列表中的每个Ngram,计算裁减掉该Ngram之后的Ngram语言模型与原始Ngram语言模型的概率分布之间的相对熵;删除至少一个所述Ngram列表中相对熵小的Ngram,得到裁剪后的Ngram语言模型。
地址 518057 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼