发明名称 一种基于非连续短语的泛化重排序统计翻译方法及装置
摘要 一种基于非连续短语的泛化重排序统计翻译方法及装置,由词对齐模块、语言模型模块、抽取短语模块、训练最大熵分类器模块,最小错误训练模块以及解码器组成装置,对基于短语的统计机器翻译给出泛化的重排序模型,引入非连续短语,对于给定的待翻译文种中的任何一个连续的串,利用规则来组合连续短语和非连续短语,来获取尽可能多的连续的目标翻译,同时与一个重排序的子模型结合,实现短语的局部和全局的重排序,得到该源语言句子的最后的目标翻译。该模型能够抓住短语的局部和全局重排序知识,而且能够通过非连续的短语获得短语的泛化能力。实验结果表明模型改善了基于最大熵的重排序模型和基于层次短语的翻译模型大约1.54%and 0.66%的BLEU打分。
申请公布号 CN101685441A 申请公布日期 2010.03.31
申请号 CN200810222771.X 申请日期 2008.09.24
申请人 中国科学院自动化研究所 发明人 宗成庆;何彦青
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 中科专利商标代理有限责任公司 代理人 梁爱荣
主权项 1、一种基于非连续短语的泛化重排序统计翻译方法,步骤如下:训练步骤包括:a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具,从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,双向运行GIZA++工具并应用启发式的修正规则为每一个句子对获取一个多对多的词对齐;b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者多元的语言模型;c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对并统计其概率信息;d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训练最大熵分类器;e)利用最小错误训练算法在开发集上训练翻译模型参数;翻译步骤包括:在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基础上,应用翻译模型参数,使用规则对待翻译文种句子进行翻译及顺序的调整,直至完成解码、翻译。
地址 100080北京市海淀区中关村东路95号