发明名称 |
面向神经机器翻译的长句切分方法及装置 |
摘要 |
本申请提供了一种面向神经机器翻译的长句切分方法,在使用NMT模型进行语句翻译前,并非直接将源语句输入NMT模型中,而是将语句切分为较短的子句,将各个子句依次输入NMT模型,以使NMT模型分别依次翻译各个切分后的子句,然后,直接将翻译后的子句拼接为完整子句。由于输入NMT模型翻译的子句较短,NMT模型的翻译准确率较高,从而提高了语句翻译的准确率。另外,本申请还提供了一种面向神经机器翻译的长句切分装置,用以保证所述方法在实际中的应用及实现。 |
申请公布号 |
CN105912533A |
申请公布日期 |
2016.08.31 |
申请号 |
CN201610224531.8 |
申请日期 |
2016.04.12 |
申请人 |
苏州大学 |
发明人 |
熊德意;邝少辉 |
分类号 |
G06F17/28(2006.01)I;G06F17/24(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/28(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
常亮 |
主权项 |
一种面向神经机器翻译的长句切分方法,其特征在于,包括:在获得待翻译的源语句后,确定所述源语句的长度;在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先后顺序;将每个所述源子句输入至预先训练好的神经机器翻译NMT模型中进行翻译,获得每个所述源子句所对应的目标子句;按照各个所述源子句的先后顺序,拼接所述源子句所对应的目标子句,获得所述源语句的目标语句。 |
地址 |
215123 江苏省苏州市工业园区仁爱路199号 |