发明名称 识别具有组合型歧义的歧义词的方法和装置
摘要 本发明公开了一种识别具有组合型歧义的歧义词的方法和装置。该方法包括:利用核心词表对第一语言句子进行粗粒度切分;利用核心词表在粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词;通过分解候选歧义词对第一语言句子进行细粒度切分;从与第一语言句子对应的第二语言句子中分别抽取候选歧义词的译文、和候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的候选歧义词和更小粒度的多个词的译文是否出现在通过第一语言与第二语言词典得到的候选歧义词和更小粒度的多个词的译文中,以确定候选歧义词是真歧义词还是伪歧义词。
申请公布号 CN103514150A 申请公布日期 2014.01.15
申请号 CN201210211767.X 申请日期 2012.06.21
申请人 富士通株式会社 发明人 郑仲光;孟遥;于浩
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 杜诚;陈炜
主权项 一种识别具有组合型歧义的歧义词的方法,包括:利用核心词表,对涉及第一语言和第二语言的平行语料库中的第一语言句子进行粗粒度切分;利用所述核心词表,在所述粗粒度切分后的分词结果中检测能够被分解成更小粒度的多个词的候选歧义词,组成候选歧义词集合;通过分解所述候选歧义词,对所述第一语言句子进行细粒度切分;将通过粗粒度切分所述第一语言句子得到的粗粒度第一语言词以及通过细粒度切分所述第一语言句子得到的细粒度第一语言词分别与所述第一语言句子所对应的第二语言句子中的第二语言词进行词对齐,以从所述第二语言句子中分别抽取所述候选歧义词的译文、和所述候选歧义词所分解成的更小粒度的多个词的译文;以及判断所抽取的所述候选歧义词的译文是否出现在通过第一语言与第二语言词典得到的所述候选歧义词的所有译文中,以及判断所抽取的所述候选歧义词所分解成的更小粒度的多个词的译文是否出现在通过所述第一语言与第二语言词典得到的所述候选歧义词所分解成的更小粒度的多个词的所有译文中,以确定所述候选歧义词是真歧义词还是伪歧义词,并且确定包含所述候选歧义词的所述第一语言句子是正例还是反例。
地址 日本神奈川县