发明名称 |
一种机器翻译方法 |
摘要 |
本发明提供一种机器翻译方法,包括以下步骤:步骤1)分析源语言串,得到源语言串的共享压缩句法森林;步骤2)根据已知的源语言与目标语言之间的翻译规则集合,对句法森林进行匹配,得到共享压缩翻译森林;步骤3)利用搜索算法遍历所述翻译森林生成最终翻译结果。本发明利用共享压缩森林来指导翻译,能够从大量的树中搜索翻译结果,远远超过了单独使用N-best树的搜索空间。在223万平行双语语料数据集上,与使用30-best树解码的模型相比,本发明的翻译速度快1.4倍、翻译性能高1.7个BLEU点。 |
申请公布号 |
CN101398815B |
申请公布日期 |
2011.02.16 |
申请号 |
CN200810114949.9 |
申请日期 |
2008.06.13 |
申请人 |
中国科学院计算技术研究所 |
发明人 |
米海涛;黄亮;刘群 |
分类号 |
G06F17/28(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/28(2006.01)I |
代理机构 |
北京泛华伟业知识产权代理有限公司 11280 |
代理人 |
王勇 |
主权项 |
一种机器翻译方法,包括以下步骤:步骤1)分析源语言串,得到源语言串的共享压缩句法森林,对所述共享压缩句法森林进行剪枝处理;步骤2)根据已知的源语言与目标语言之间的翻译规则集合,使用枚举的方式对剪枝处理后的共享压缩句法森林进行匹配,得到共享压缩翻译森林;步骤3)利用搜索算法遍历所述共享压缩翻译森林生成最终翻译结果。所述步骤1)中,所述剪枝处理的方法是:对于共享压缩句法森林中的每个节点v,计算Viterbi向内概率负对数β(v)、向外概率负对数α(v);对于每个句法超边ep依次计算 <mrow> <mi>αβ</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>α</mi> <mrow> <mo>(</mo> <mi>Head</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>Σ</mi> <mrow> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>∈</mo> <mi>Tails</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mi>β</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>δ(ep)=αβ(ep)‑β(TOP)如果δ(ep)小于预先设定的阈值t,则保留超边ep,否则删除;其中Head(ep)表示超边ep的头节点,Tails(ep)表示超边ep的尾节点集合,β(TOP)为1‑best句法树概率之负对数值。 |
地址 |
100190 北京市海淀区中关村科学院南路6号 |