发明名称 面向神经机器翻译的长句切分方法及装置
摘要 本申请提供了一种面向神经机器翻译的长句切分方法,在使用NMT模型进行语句翻译前,并非直接将源语句输入NMT模型中,而是将语句切分为较短的子句,将各个子句依次输入NMT模型,以使NMT模型分别依次翻译各个切分后的子句,然后,直接将翻译后的子句拼接为完整子句。由于输入NMT模型翻译的子句较短,NMT模型的翻译准确率较高,从而提高了语句翻译的准确率。另外,本申请还提供了一种面向神经机器翻译的长句切分装置,用以保证所述方法在实际中的应用及实现。
申请公布号 CN105912533A 申请公布日期 2016.08.31
申请号 CN201610224531.8 申请日期 2016.04.12
申请人 苏州大学 发明人 熊德意;邝少辉
分类号 G06F17/28(2006.01)I;G06F17/24(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 常亮
主权项 一种面向神经机器翻译的长句切分方法,其特征在于,包括:在获得待翻译的源语句后,确定所述源语句的长度;在所述长度大于预设长度的情况下,利用预先构建的切分模型对所述源语句进行切分,获得多个源子句;其中,各个所述源子句之间具有先后顺序;将每个所述源子句输入至预先训练好的神经机器翻译NMT模型中进行翻译,获得每个所述源子句所对应的目标子句;按照各个所述源子句的先后顺序,拼接所述源子句所对应的目标子句,获得所述源语句的目标语句。
地址 215123 江苏省苏州市工业园区仁爱路199号