发明名称 裁剪语言模型的方法及装置
摘要 本发明提供了裁剪语言模型的方法及装置。根据本发明的一个方面,提供了一种裁剪语言模型的方法,其中,该语言模型包括多个n元组及其概率,以及多个低阶(<n)的元组及其概率;上述方法包括:根据上述语言模型生成初始的基础模型,该基础模型不包括上述多个n元组及其概率,只包含低于n阶的元组及其概率;利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性,该训练语料库包括训练数据和参考答案;以及将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型,作为裁剪后的语言模型。
申请公布号 CN101271450B 申请公布日期 2010.09.29
申请号 CN200810084614.7 申请日期 2008.03.13
申请人 株式会社东芝 发明人 李剑峰;王海峰;任登君;李国华
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京市中咨律师事务所 11247 代理人 李峥;刘瑞东
主权项 一种裁剪语言模型的方法,其中,该语言模型包括多个n元组及其概率,以及多个低阶的元组及其概率;上述方法包括:根据上述语言模型生成初始的基础模型,该基础模型不包括上述多个n元组及其概率;利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性,该训练语料库包括训练数据和参考答案,其中上述参考答案是实际应用针对上述训练数据的参考结果;以及将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型,作为裁剪后的语言模型。
地址 日本东京都