发明名称 | 统计机器翻译短语抽取方法 | ||
摘要 | 本发明提供一种统计机器翻译短语抽取方法,包括下列步骤:1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率;2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率,由所述词语对的对齐概率构成对齐矩阵;3)根据所述对齐矩阵,计算短语对齐的频度;4)根据所述短语对齐的频度计算的所述短语对齐的相对频度和词汇化概率。本发明能够有效表示所有可能的对齐短语组合,提高了短语抽取的质量,进而能够提高根据所抽取的短语进行翻译的质量。 | ||
申请公布号 | CN101989261A | 申请公布日期 | 2011.03.23 |
申请号 | CN200910164809.7 | 申请日期 | 2009.08.01 |
申请人 | 中国科学院计算技术研究所 | 发明人 | 刘洋;夏天;肖欣延;刘群 |
分类号 | G06F17/28(2006.01)I | 主分类号 | G06F17/28(2006.01)I |
代理机构 | 北京泛华伟业知识产权代理有限公司 11280 | 代理人 | 王勇 |
主权项 | 一种统计机器翻译短语抽取方法,包括下列步骤:1)从两个方向对双语语料获得多个对齐句对组合,并计算所述多个对齐句对组合的先验概率;2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率,由所述词语对的对齐概率构成对齐矩阵;3)根据所述对齐矩阵,计算短语对齐的频度;4)根据所述短语对齐的频度计算所述短语对齐的相对频度和词汇化概率。 | ||
地址 | 100190 北京市海淀区中关村科学院南路6号 |