发明名称 平行口语语料的对齐方法和装置
摘要 本发明提供一种平行口语语料的对齐方法和装置以及分别采用了这样的平行口语语料的对齐方法和装置的语音机器翻译方法和系统。该平行口语语料的对齐方法包括:从上述平行口语语料获得基于统计方法和词典的词对齐集合;利用上述基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐,以获得短语对齐集合;以及在上述平行口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合。本发明通过利用从语料库中的平行口语语料获得的基于统计方法和词典的高准确率词对齐集合对平行口语语料进行短语对齐、进而词对齐,来获得短语对齐集合和词对齐集合,并将其用于语音机器翻译中,从而利用短语的完整性来减少口语词对齐的歧义。
申请公布号 CN101464856A 申请公布日期 2009.06.24
申请号 CN200710199195.7 申请日期 2007.12.20
申请人 株式会社东芝 发明人 任登君;吴华;王海峰
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京市中咨律师事务所 代理人 李 峥;杨晓光
主权项 1. 一种平行口语语料的对齐方法,包括:从上述平行口语语料获得基于统计方法和词典的词对齐集合;利用上述基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐,以得到短语对齐集合;以及在上述平行口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合。
地址 日本东京都