发明名称 |
获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统 |
摘要 |
本发明提供了一种获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统,其中机器翻译的系统包括:分类模块,用于使用第一分类模型对待翻译文本进行分类,以确定所述待翻译文本所属领域,其中所述第一分类模型由各领域的训练语料训练得到;翻译模块,用于利用与所述待翻译文本所属领域对应的领域翻译模型对所述待翻译文本进行翻译,其中所述领域翻译模型由对应领域的训练语料训练得到。通过上述方式,可以有效提高翻译的精度。 |
申请公布号 |
CN103049436A |
申请公布日期 |
2013.04.17 |
申请号 |
CN201110307878.6 |
申请日期 |
2011.10.12 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
马艳军;吴华;王海峰 |
分类号 |
G06F17/28(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/28(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种获取语料的方法,其特征在于,所述方法包括:将双语语料中来自相同页面的双语句对归并为一组从而将所述双语语料划分为多个归并语料;从各个归并语料中选择长度超过设定阈值的归并语料组成长语料;采用聚类的方法,将相同领域的长语料聚为一类;利用聚类得到的各领域的长语料训练分类模型;使用训练后的分类模型对所述双语语料中的短语料进行分类,以确定所述短语料所属领域,并将各领域的短语料与相同领域的长语料进行合并,得到各领域的训练语料,其中所述短语料为所述双语语料中除所述长语料之外的其他语料。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |