发明名称 |
一种平行语料资源获取方法及系统 |
摘要 |
本发明实施例公开了一种平行语料资源获取方法及系统。一种平行语料资源获取方法包括:获取第一语料库和第二语料库之间相匹配的中间语言公共字串;根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;其中,所述第一语料库中包括第一语言与中间语言的平行语料;所述第二语料库中包括第二语言与中间语言的平行语料。应用本发明实施例所提供的方案,利用第三方语言来获取两种语言之间的平行语料,以解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则以构建统计机器翻译系统。 |
申请公布号 |
CN102591857A |
申请公布日期 |
2012.07.18 |
申请号 |
CN201110021725.5 |
申请日期 |
2011.01.10 |
申请人 |
富士通株式会社 |
发明人 |
郑仲光;何中军;孟遥;于浩 |
分类号 |
G06F17/28(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/28(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
王萍;李春晖 |
主权项 |
一种平行语料资源获取方法,包括:获取第一语料库和第二语料库之间相匹配的中间语言公共字串;根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;其中,所述第一语料库中包括第一语言与中间语言的平行语料;所述第二语料库中包括第二语言与中间语言的平行语料。 |
地址 |
日本神奈川县 |