发明名称 |
多译本平行语料库的构建系统 |
摘要 |
本发明提供了一种多译本平行语料库的构建系统,包括:深度语义相似度计算装置,用于分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;代表性词典相似度和其他统计信息相似度计算装置;融合匹配度计算装置,用于计算源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度;语句匹配装置,用于根据融合匹配度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与所述多个译本中其它译本的融合匹配度;多译本平行语料库构建装置,用于根据匹配结果,构建多译本平行语料库。上述技术方案实现了多译本平行语料库的构建,提高了语料对齐的精确度,通过该方案构建的多译本平行语料库具有鲁棒性。 |
申请公布号 |
CN105843801A |
申请公布日期 |
2016.08.10 |
申请号 |
CN201610178472.5 |
申请日期 |
2016.03.25 |
申请人 |
北京语言大学 |
发明人 |
吴平;吴增欣;唐嘉梨;张弛;安丰科 |
分类号 |
G06F17/28(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/28(2006.01)I |
代理机构 |
北京三友知识产权代理有限公司 11127 |
代理人 |
王天尧 |
主权项 |
一种多译本平行语料库的构建系统,其特征在于,包括:深度语义相似度计算装置,用于分别计算源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度;代表性词典相似度和其他统计信息相似度计算装置,用于计算源语言文本句子与多个译本中每一译本的待匹配句子的代表性词典相似度和其他统计信息相似度;融合匹配度计算装置,用于根据所述源语言文本句子与多个译本中每一译本的待匹配句子的深度语义相似度、代表性词典相似度和其他统计信息相似度,通过线性回归模型加权计算源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度;语句匹配装置,用于根据源语言文本句子与多个译本中每一译本的待匹配句子的融合匹配度,将源语言文本与每一译本进行语句匹配,且匹配时参考源语言文本与所述多个译本中其它译本的融合匹配度;多译本平行语料库构建装置,用于根据源语言文本与多个译本的语句匹配结果,构建多译本平行语料库。 |
地址 |
100083 北京市海淀区学院路15号 |