发明名称 一种机器翻译方法
摘要 本发明提供一种机器翻译方法,包括以下步骤:步骤1)分析源语言串,得到源语言串的共享压缩句法森林;步骤2)根据已知的源语言与目标语言之间的翻译规则集合,对句法森林进行匹配,得到共享压缩翻译森林;步骤3)利用搜索算法遍历所述翻译森林生成最终翻译结果。本发明利用共享压缩森林来指导翻译,能够从大量的树中搜索翻译结果,远远超过了单独使用N-best树的搜索空间。在223万平行双语语料数据集上,与使用30-best树解码的模型相比,本发明的翻译速度快1.4倍、翻译性能高1.7个BLEU点。
申请公布号 CN101398815B 申请公布日期 2011.02.16
申请号 CN200810114949.9 申请日期 2008.06.13
申请人 中国科学院计算技术研究所 发明人 米海涛;黄亮;刘群
分类号 G06F17/28(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 11280 代理人 王勇
主权项 一种机器翻译方法,包括以下步骤:步骤1)分析源语言串,得到源语言串的共享压缩句法森林,对所述共享压缩句法森林进行剪枝处理;步骤2)根据已知的源语言与目标语言之间的翻译规则集合,使用枚举的方式对剪枝处理后的共享压缩句法森林进行匹配,得到共享压缩翻译森林;步骤3)利用搜索算法遍历所述共享压缩翻译森林生成最终翻译结果。所述步骤1)中,所述剪枝处理的方法是:对于共享压缩句法森林中的每个节点v,计算Viterbi向内概率负对数β(v)、向外概率负对数α(v);对于每个句法超边ep依次计算 <mrow> <mi>&alpha;&beta;</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>Head</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>Tails</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mi>&beta;</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>δ(ep)=αβ(ep)‑β(TOP)如果δ(ep)小于预先设定的阈值t,则保留超边ep,否则删除;其中Head(ep)表示超边ep的头节点,Tails(ep)表示超边ep的尾节点集合,β(TOP)为1‑best句法树概率之负对数值。
地址 100190 北京市海淀区中关村科学院南路6号