发明名称 一种机器翻译模板自动获取方法及装置
摘要 本发明涉及计算机科学与技术领域,特别是一种新的面向机器翻译的翻译模板自动获取的方法及装置。方法步骤:a)语料的预处理;b)分别提取汉语部分的词表以及英语部分的词表;c)分别对汉语部分和英语部分进行语法的归纳;d)对提取出来的短语结构进行对齐;e)对采用不同相似度函数的结果进行对比,选取最优的相似度函数;f)对对齐的结果进行后处理以获得所需要的机器翻译模板。装置包括:汉语分词装置、汉语语法归纳装置、英语语法归纳装置、短语结构对齐装置以及后处理装置。
申请公布号 CN1801140A 申请公布日期 2006.07.12
申请号 CN200410101877.6 申请日期 2004.12.30
申请人 中国科学院自动化研究所 发明人 宗成庆;胡日勒
分类号 G06F17/28(2006.01) 主分类号 G06F17/28(2006.01)
代理机构 中科专利商标代理有限责任公司 代理人 周国城
主权项 1、用基于短语结构抽取和对齐的方法进行机器翻译模板的自动获取的方法,其步骤如下:a)语料的预处理:对需要进行模板获取的双语对齐语料库中的中文部分进行分词;b)分别提取汉语部分的词表以及英语部分的词表;c)分别对汉语部分和英语部分进行语法的归纳,从而分别提取出两部分的短语结构;d)对提取出来的短语结构进行对齐;e)对采用不同相似度函数的结果进行对比,选取最优的相似度函数;f)对对齐的结果进行后处理以获得所需要的机器翻译模板。
地址 100080北京市海淀区中关村东路95号