发明名称 |
一种借助网络知识辅助的汉英机构名翻译方法及装置 |
摘要 |
本发明为一种汉英机构名翻译方法和装置,将待翻译的中文机构名使用基于字的条件随机场模型切分为四种语块,并对四种语块进行分词处理。选择具有一定信息量和翻译置信度的词进行统计翻译,得到机构名中若干词的翻译结果,并同待翻译的中文机构名构成一个双语查询。借助搜索引擎对该查询进行检索,得到若干中英双语混合网页的片段。抽取出网页片段中的英文,并借助中英文非对称对齐技术,筛选英文句子中与该中文机构名对齐概率最高的片段。通过统计每个片段出现的频率等信息,确定一个最优片段作为中文机构名的翻译。该方法克服统计翻译模型在机构名翻译过程中容易出现的结构、顺序和选词错误,机构名翻译精确率提高了35.26%。 |
申请公布号 |
CN101676898B |
申请公布日期 |
2011.12.07 |
申请号 |
CN200810222335.2 |
申请日期 |
2008.09.17 |
申请人 |
中国科学院自动化研究所 |
发明人 |
赵军;杨帆 |
分类号 |
G06F17/28(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/28(2006.01)I |
代理机构 |
中科专利商标代理有限责任公司 11021 |
代理人 |
梁爱荣 |
主权项 |
一种借助网络知识辅助的汉英机构名翻译方法,包括步骤如下:步骤S1:使用基于字的条件随机场序列标注模型将待翻译的中文机构名切分为四种语块的序列,并对每个语块分别进行分词处理,得到一个中文机构名的分词序列;步骤S2:从中文机构名的分词序列中选择若干待翻译中文词语,使用统计翻译模块将所选择的待翻译中文词语翻译为对应的英文单词并生成查询;步骤S3:将待翻译的中文机构名和翻译得到的部分英文单词组合为一个查询,利用搜索引擎得到包含该查询的若干网页片段,抽取网页片段中的英文部分;步骤S4:将待翻译的中文机构名与抽取的网页片段中英文部分中的句子进行非对称对齐,计算英文句子中每个片段与中文机构名的对齐概率,并结合所述每个片段出现的频率信息以及所述每个片段与中文机构名的距离,筛选出待翻译中文机构名的最优翻译候选。 |
地址 |
100080 北京市海淀区中关村东路95号 |