一种机器翻译方法,申请号CN200810114949.9-传众专利搜索

发明名称	一种机器翻译方法
摘要	本发明提供一种机器翻译方法，包括以下步骤：步骤1)分析源语言串，得到源语言串的共享压缩句法森林；步骤2)根据已知的源语言与目标语言之间的翻译规则集合，对句法森林进行匹配，得到共享压缩翻译森林；步骤3)利用搜索算法遍历所述翻译森林生成最终翻译结果。本发明利用共享压缩森林来指导翻译，能够从大量的树中搜索翻译结果，远远超过了单独使用N-best树的搜索空间。在223万平行双语语料数据集上，与使用30-best树解码的模型相比，本发明的翻译速度快1.4倍、翻译性能高1.7个BLEU点。
申请公布号	CN101398815B	申请公布日期	2011.02.16
申请号	CN200810114949.9	申请日期	2008.06.13
申请人	中国科学院计算技术研究所	发明人	米海涛;黄亮;刘群
分类号	G06F17/28(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F17/28(2006.01)I
代理机构	北京泛华伟业知识产权代理有限公司 11280	代理人	王勇
主权项	一种机器翻译方法，包括以下步骤：步骤1)分析源语言串，得到源语言串的共享压缩句法森林，对所述共享压缩句法森林进行剪枝处理；步骤2)根据已知的源语言与目标语言之间的翻译规则集合，使用枚举的方式对剪枝处理后的共享压缩句法森林进行匹配，得到共享压缩翻译森林；步骤3)利用搜索算法遍历所述共享压缩翻译森林生成最终翻译结果。所述步骤1)中，所述剪枝处理的方法是：对于共享压缩句法森林中的每个节点v，计算Viterbi向内概率负对数β(v)、向外概率负对数α(v)；对于每个句法超边ep依次计算 <mrow> <mi>αβ</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>α</mi> <mrow> <mo>(</mo> <mi>Head</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>Σ</mi> <mrow> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>Tails</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mi>β</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>δ(ep)＝αβ(ep)‑β(TOP)如果δ(ep)小于预先设定的阈值t，则保留超边ep，否则删除；其中Head(ep)表示超边ep的头节点，Tails(ep)表示超边ep的尾节点集合，β(TOP)为1‑best句法树概率之负对数值。
地址	100190 北京市海淀区中关村科学院南路6号