发明名称 | 一种基于语块的中文机构名翻译方法及装置 | ||
摘要 | 本发明公开一种基于语块的中文机构名翻译方法及装置,直接从中文机构名的结构入手,进行语块的切分,语块的翻译过程和顺序调整过程同时采用同步上下文无关文法的推导来完成,最终实现中文机构名的翻译。这种将整个实体划分成更小粒度单位进行翻译的方法,符合中文机构名构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。在翻译系统中,该装置相当于预处理部分,独立于用于句子翻译的机器翻译系统。这种“分而治之”的策略大大降低了整句翻译的难度,从而提高了翻译系统的整体性能。实验证明本发明在中文机构名翻译中的有效性。把它加入到机器翻译系统中,按BLEU打分标准,翻译系统的整体性能相对提高约13.3%。 | ||
申请公布号 | CN101075230B | 申请公布日期 | 2011.11.16 |
申请号 | CN200610011923.2 | 申请日期 | 2006.05.18 |
申请人 | 中国科学院自动化研究所 | 发明人 | 宗成庆;陈钰枫 |
分类号 | G06F17/28(2006.01)I | 主分类号 | G06F17/28(2006.01)I |
代理机构 | 中科专利商标代理有限责任公司 11021 | 代理人 | 周国城 |
主权项 | 一种基于语块的中文机构名翻译方法,其特征在于,采用如下步骤:训练语料步骤:对机构名中英对照翻译对中的中文机构名进行分词;从中文到英文的对位结果中提取正确的对齐结果;并得到中文到英文的翻译概率p(ei|oi),其中的ei表示英文词,oi代表相应的中文词;在对位的基础上,将中英对照机构名翻译对,基于语块的定义将中英对照机构名翻译对切割成最高级的修饰语语块、次高级修饰语语块和机构称呼词语块,于是得到语块概率模型p(oi1…oij|ci)和语块上下文模型p(ci|ci‑1),其中oi1…oij表示与语块ci对应的词序列,ci表示当前语块,而ci‑1表示前一个语块;然后采用一个定义对语块切割后的每个机构名的对位结果提取同步上下文无关文法规则,即同步Context‑Free Grammar规则,简称同步CFG规则,该规则分为普通规则和规则*两类,并统计每条规则的概率信息;翻译步骤:先对待翻译的中文机构名进行分词,然后将其切割成语块,最后利用所述同步上下文无关文法规则的推导,即优先采用规则*推导,然后采用设置的普通规则的三个步骤进行推导,对语块位置进行调整,完成语块的翻译。 | ||
地址 | 100080 北京市海淀区中关村东路95号 |