发明名称 一种拼音和汉字相结合的汉外口语自动翻译方法
摘要 一种拼音和汉字相结合的汉外口语自动翻译方法:首先将原始汉外双语语料的汉语部分进行字音转化和单字分割,得到基于拼音和基于汉字的汉外双语语料;分别利用基于拼音和汉字的汉外训练语料进行词对齐的训练,得到基于拼音和汉字的词对齐并对这两个词对齐进行融合得到融合后的词对齐文件;在此基础上抽取并学翻译知识,得到基于拼音和基于汉字的翻译模型;结合外文语料的语言模型和翻译模型在开发集上进行最小错误训练,得到各个特征的特征权重及相关参数;最后进行融合解码生成最终翻译。该方法大大改善了翻译性能和系统的鲁棒性,与目前通用的基于字的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。
申请公布号 CN101788978B 申请公布日期 2011.12.07
申请号 CN200910244513.6 申请日期 2009.12.30
申请人 中国科学院自动化研究所 发明人 周玉;宗成庆
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 梁爱荣
主权项 一种拼音和汉字相结合的汉外口语自动翻译方法,其特征在于,利用拼音和汉字相结合的方法进行训练和解码,其具体实现步骤包括:步骤S1:对原始汉外语料的汉语部分进行字音转化,将所有连续汉字转化为相应的拼音,经过将原始汉外语料的汉语部分进行字音转化,得到基于拼音的汉语语料并与原始外语语料重新进行对齐组合就得到了基于拼音的汉外训练语料;并对原始汉语语料转化为基于汉语单字分隔形式的语料,得到基于汉语单字分隔的汉语语料并与原始外语语料重新进行组合就得到了基于汉字的汉外训练语料;步骤S2:采用Moses工具包中的GIZA++工具包对基于拼音的汉外训练语料进行词对齐的训练,得到基于拼音的词对齐;采用Moses工具包中的GIZA++工具包对基于汉字的汉外训练语料进行词对齐的训练,得到基于汉字的词对齐;步骤S3:对生成的基于拼音的词对齐和基于汉字的词对齐进行词对齐的融合是将基于拼音的词对齐和基于汉字的词对齐两种词对齐文件直接进行叠加,叠加顺序是将两个词对齐文件拷贝到一个新的词对齐文件中生成融合后的词对齐文件,新生成的融合后的词对齐文件的行数为基于拼音的词对齐或基于汉字的词对齐文件行数的两倍;步骤S4:结合基于拼音的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于拼音的汉外翻译知识,得到基于拼音的翻译模型;结合基于汉字的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于汉字的汉外翻译知识,得到基于汉字的翻译模型;所述得到基于拼音的翻译模型的步骤包括:步骤S41:首先将基于拼音的汉外训练语料分别复制一倍,以保持跟融合后的词对齐文件的行数及内容保持一一对应;步骤S42:利用Moses工具包进行翻译模型的训练工作,对基于短语的翻译知识抽取模块输入三个一一对应文件,即双倍复制后的基于拼音的汉语训练语料、双倍复制后的基于拼音的外语训练语料、融合后的词对齐文件,根据这三个文件进行翻译知识的抽取,输出基于拼音的翻译模型;所述得到基于汉字的翻译模型的步骤包括:步骤S43:首先将基于汉字的汉外训练语料分别复制一倍,以保持跟融合后的词对齐文件的行数及内容保持一一对应;步骤S44:利用Moses工具包进行翻译模型的训练工作,对基于短语的翻译知识抽取模块输入三个一一对应文件:即双倍复制后的基于汉字的汉语训练语料、双倍复制后的基于汉字的外语训练语料、融合后的词对齐文件,根据这三个文件进行翻译知识的抽取,输出基于汉字的翻译模型;步骤S5:对基于拼音的汉外训练语料中的外语部分进行学习,获取N元文法的概率信息,得到基于拼音的语言模型;对基于汉字的汉外训练语料中的外语部分进行学习,获取N元文法的概率信息,得到基于汉字的语言模型;采用Srilm工具作为语言模型的训练工具,得到基于拼音和基于汉字的语言模型;步骤S6:利用基于拼音的语言模型和基于拼音的翻译模型在基于拼音的开发集上进行最小错误训练,得到基于拼音的翻译方法的各个特征的特征权重参数;利用基于汉字的语言模型和基于汉字的翻译模型在基于汉字的开发集上进行最小错误训练,得到基于汉字的翻译方法的各个特征的特征权重参数;采用Moses工具包进行最小错误训练,得到特征权重参数;步骤S7:利用基于拼音的翻译方法的各个特征的特征权重参数,并结合基于拼音的语言模型和翻译模型,将基于拼音的测试语料送入基于拼音的解码系统中进行解码,输出测试集的基于拼音的翻译结果;利用基于汉字的翻译方法的各个特征的特征权重参数,并结合基于汉字的语言模型和翻译模型,将基于汉字的测试语料送入基于汉字的解码系统中进行解码,输出测试集的基于汉字的翻译结果;所述解码系统是采用Moses工具包提供的解码系统;步骤S8:将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果送入系统融合模块进行融合,利用打分算法来对基于拼音和基于汉字的翻译结果进行打分,并根据该打分来选取最优的翻译结果,从而得到系统融合后的测试集的翻译结果;所述将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果送入系统融合模块进行融合的步骤包括:步骤S81:首先利用基于拼音的解码系统,对基于拼音的开发集进行翻译解码,生成开发集的基于拼音的前N个翻译最优结果;步骤S82:其次利用基于汉字的解码系统,对基于汉字的开发集进行翻译解码,生成开发集的基于汉字的前N个翻译最优结果;步骤S83:然后利用翻译系统的融合方法,包括句子级别的融合、短语级别的融合和词级别的融合方法,来对开发集的基于拼音的前N个翻译最优结果和基于汉字的前N个翻译最优结果进行最小错误训练,得到融合系统中的各个特征权重和相关参数;步骤S84:最后利用获取的融合系统中的各个特征权重和相关参数对测试集的基于拼音的翻译结果和基于汉字的翻译结果进行系统融合得到新生成的测试集的前M个最优翻译结果;步骤S9:从系统融合后的测试集的翻译结果中选择打分最优的结果作为最终的翻译结果输出。
地址 100080 北京市海淀区中关村东路95号