发明名称 |
双语文本的词语对齐方法及装置 |
摘要 |
本发明公开了一种双语文本的词语对齐方法及装置,属于文本信息处理领域,所述方法包括:对待对齐的双语文本的原文文本和译文文本分别进行预处理;计算在任意一个源语言词和目标语言词间增加一条连接的增益;设定初始词语对齐为空对齐;使用贪心策略迭代搜索满足逆向转录文法约束的词语对齐;将搜索到的满足逆向转录文法约束的最好词语对齐作为最终对齐结果输出;所述装置包括:预处理模块,连接增益计算模块,初始词语对齐生成模块,词语对齐搜索模块,词语对齐结果输出模块;本发明通过使用贪心策略迭代搜索满足逆向转录文法约束的词语对齐,具有提升词语对齐速度,保证良好词语对齐质量的效果。 |
申请公布号 |
CN103150329A |
申请公布日期 |
2013.06.12 |
申请号 |
CN201310003841.3 |
申请日期 |
2013.01.06 |
申请人 |
清华大学;波音公司 |
发明人 |
李鹏;刘洋;薛平;孙茂松 |
分类号 |
G06F17/30(2006.01)I;G06F17/28(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
西安智大知识产权代理事务所 61215 |
代理人 |
贾玉健 |
主权项 |
一种双语文本的词语对齐方法,其特征在于,所述方法包括:对待对齐的双语文本的原文文本和译文文本分别进行预处理;计算在任意一个源语言词和目标语言词间增加一条连接的增益;设定初始词语对齐为空对齐,即任意两个词间都不存在连接;使用贪心策略迭代搜索满足逆向转录文法约束的词语对齐;将搜索到的满足逆向转录文法约束的最好词语对齐作为最终对齐结果输出。 |
地址 |
100084 北京市海淀区100084信箱82分箱清华大学专利办公室 |