发明名称 一种双向词语对齐方法及装置
摘要 本发明涉及一种双向词语对齐方法及装置,其中,方法包括构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;利用一致性评估函数,融合两个方向的词语对齐模型,构建初始目标函数;利用一致性评估函数,对两个方向的词语对齐模型进行联合训练,形成优化目标函数;利用优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。系统包括词语对齐模型构建模块、目标函数构建模块、联合训练模块、词语对齐分析模块。通过本发明提供方法及装置,由于引入了一致性评估函数,能对两个方向的词语对齐模型进行联合训练,使两个方向的词语对齐模型相互纠错,极大的降低了词语对齐的错误率。
申请公布号 CN105630776A 申请公布日期 2016.06.01
申请号 CN201510998012.2 申请日期 2015.12.25
申请人 清华大学 发明人 孙茂松;柳春洋;刘洋;栾焕博;刘奕群;马少平
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 李相雨
主权项 一种双向词语对齐方法,其特征在于,包括:A、构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;B、利用一致性评估函数,融合所述第一词语对齐模型和第二词语对齐模型,构建初始目标函数;C、利用一致性评估函数,对所述第一词语对齐模型和第二词语对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的模型;D、利用所述优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。
地址 100084 北京市海淀区清华园北京100084-82信箱