发明名称 基于依存树的统计机器翻译方法及系统
摘要 本发明提供一种基于依存边转换的统计机器翻译方法,根据从双语语料库中抽取的转换规则,将源语言句子的依存树中每条依存边转换为对应的目标语言短语依存边,并对所得到的目标语言短语依存边进行拼接,以生成目标语言端译文。该方法结合依存句法模型的优势,但采用分析-转换-生成的模式将翻译过程拆解成了三个阶段,可以对三个过程分别独立建模,使得对目标语言端句子的生成过程进行更为精确的控制成为可能。该采用基于依存边的转换保留了更多的知识,可以容忍更高程度的句法非同构现象,而且取得超过当前主流的基于短语模型翻译的方法的性能。
申请公布号 CN104239290A 申请公布日期 2014.12.24
申请号 CN201410389422.2 申请日期 2014.08.08
申请人 中国科学院计算技术研究所 发明人 陈宏申;谢军;孟凡东;姜文斌;刘群
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京泛华伟业知识产权代理有限公司 11280 代理人 王勇
主权项 一种基于依存树的转换规则抽取方法,该方法包括:步骤1,对于由源语言依存树、目标语言串和源语言与目标语言之间的词语对齐关系构成的三元组中所述源语言依存树的每个节点,利用所述对齐关系标记该节点的节点域和子树域,其中所述节点域是与该节点对齐的所有目标词在所述目标语言串中的位置的集合,所述子树域是指以该节点为根的依存子树中所有节点的节点域的并集;步骤2,从所述源语言依存树中提取可接受的依存边,并从每条可接受的依存边抽取转换规则;其中,所述可接受的依存边是指满足下列条件的依存边:(i)该依存边的头节点的节点域和该依存边的依存节点的子树域没有交集;(ii)该依存边的头节点的节点域与所述源语言依存树中任何其他节点的节点域没有交集;(iii)该依存边的依存节点的子树域与所述源语言依存树中在以该依存节点为根的子树之外的任何其他节点的节点域没有交集;以及所述转换规则包括源端依存边和目标端短语依存边,所述源端依存边为一条可接受的依存边,所述目标端短语依存边包括与所述源端依存边的头结点对应的目标语言短语片、以所述源端依存边的依存结点为根节点的依存子树对应的目标语言短语片以及这两个目标语言短语片在所述目标语言串中的左右位置关系和是否相邻的位置关系。
地址 100190 北京市海淀区中关村科学院南路6号