发明名称 | 裁剪语言模型的方法及装置 | ||
摘要 | 本发明提供了裁剪语言模型的方法及装置。根据本发明的一个方面,提供了一种裁剪语言模型的方法,其中,该语言模型包括多个n元组及其概率,以及多个低阶(<n)的元组及其概率;上述方法包括:根据上述语言模型生成初始的基础模型,该基础模型不包括上述多个n元组及其概率,只包含低于n阶的元组及其概率;利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性,该训练语料库包括训练数据和参考答案;以及将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型,作为裁剪后的语言模型。 | ||
申请公布号 | CN101271450B | 申请公布日期 | 2010.09.29 |
申请号 | CN200810084614.7 | 申请日期 | 2008.03.13 |
申请人 | 株式会社东芝 | 发明人 | 李剑峰;王海峰;任登君;李国华 |
分类号 | G06F17/27(2006.01)I | 主分类号 | G06F17/27(2006.01)I |
代理机构 | 北京市中咨律师事务所 11247 | 代理人 | 李峥;刘瑞东 |
主权项 | 一种裁剪语言模型的方法,其中,该语言模型包括多个n元组及其概率,以及多个低阶的元组及其概率;上述方法包括:根据上述语言模型生成初始的基础模型,该基础模型不包括上述多个n元组及其概率;利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性,该训练语料库包括训练数据和参考答案,其中上述参考答案是实际应用针对上述训练数据的参考结果;以及将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型,作为裁剪后的语言模型。 | ||
地址 | 日本东京都 |