发明名称 机器翻译中抽取调序模板的方法及系统
摘要 本发明涉及机器翻译中抽取调序模板的方法及系统,方法包括:步骤1,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量。本发明能够消除现有技术中对抽取翻译模板的限制,并能够提取出多种调序模板以增加调序模板对于翻译中调序现象的覆盖率。
申请公布号 CN101706777B 申请公布日期 2011.07.06
申请号 CN200910237390.3 申请日期 2009.11.10
申请人 中国科学院计算技术研究所 发明人 蔡舒
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 祁建国;梁挥
主权项 一种机器翻译中抽取调序模板的方法,其特征在于,包括:步骤1,输入双语对齐语料,对所述双语对齐语料中的源语言部分进行分词和词性标注;步骤2,对双语对齐语料中每一个双语句对,进行调序分析,抽取出调序实例;步骤3,对于每个所述调序实例,根据所述调序实例中的词对在源语言和目标语言中位置,将所述调序实例划分为两部分,对于每个部分,根据词性标注确定变量部分,将所述变量部分替换为变量;所述步骤3进一步为,步骤31,对于每个所述调序实例,根据调序实例中词对在源语言和目标语言中的位置确定调序的分界,从所述分界处将所述调序实例划分为两部分;步骤32,对于每个部分,根据词性标注在所述部分的源语言部分中查找满足条件的句段,选择满足条件的句段中最长的句段作为所述部分的源语言部分的变量部分,以所述句段根据词对齐确定的在目标语言部分中对应的句段为所述部分的目标语言部分的变量部分,将源语言部分和目标语言部分的变量部分替换为变量,以形成调序模板;所述条件为句段的第一个词和最后一个词为实词,并且所述句段和所述句段在所述部分的目标语言部分中的对应句段满足词语对齐一致性。
地址 100080 北京市海淀区中关村科学院南路6号