发明名称 | 双语对齐语料的加工方法及装置 | ||
摘要 | 本发明提供一种双语对齐语料的加工方法及装置,涉及机器翻译技术领域,用于解决现有技术中双语对齐语料加工方法效率低下的问题。所述方法包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;提取所述第二语种文章的特征;根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;当所述第一语种文章与第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。本发明适用于双语对齐语料的自动加工。 | ||
申请公布号 | CN104657351A | 申请公布日期 | 2015.05.27 |
申请号 | CN201510076025.4 | 申请日期 | 2015.02.12 |
申请人 | 中国科学院软件研究所 | 发明人 | 刘汇丹;龙从军;诺明花;安波;吴健 |
分类号 | G06F17/28(2006.01)I | 主分类号 | G06F17/28(2006.01)I |
代理机构 | 北京汇泽知识产权代理有限公司 11228 | 代理人 | 张瑾 |
主权项 | 一种双语对齐语料的加工方法,其特征在于,包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;提取所述第二语种文章的特征;根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;当所述第一语种文章与所述第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。 | ||
地址 | 100190 北京市海淀区中关村南四街4号 |