发明名称 |
生成用于基于统计的机器翻译的规则的方法和设备 |
摘要 |
生成用于基于统计的机器翻译的规则的方法和设备。该设备包括:规则提取装置,其从平行语料库中提取规则;规则过滤装置,其从所提取的规则中过滤源语言短语或目标语言短语不是预定短语的任何一个的规则;规则识别装置,其从所提取的规则中识别由最小规则单调地构成的单调组合规则,其中源语言短语的顺序与源语言短语的对应目标语言短语的顺序相同,最小规则是不能进一步拆分出更小完整规则的规则,完整规则是对应关系不涉及该规则之外的短语的规则;以及短语提取装置,其从源语言或目标语言的单语语料库中提取统计特征满足预定要求的短语作为预定短语。规则过滤装置还从所提取的规则中过滤所识别的单调组合规则,统计特征包括所提取的短语的C‑value值。 |
申请公布号 |
CN101989287B |
申请公布日期 |
2016.12.14 |
申请号 |
CN200910160943.X |
申请日期 |
2009.07.31 |
申请人 |
富士通株式会社 |
发明人 |
何中军;孟遥;于浩 |
分类号 |
G06F17/30(2006.01)I;G06F17/28(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
杜诚;李春晖 |
主权项 |
一种生成用于基于统计的机器翻译的规则的设备,其特征在于,包括:规则提取装置,其从平行语料库中提取规则;规则过滤装置,其从所提取的规则中过滤掉源语言短语或目标语言短语不是预定短语的任何一个的规则;规则识别装置,其从所提取的规则中识别单调组合规则,所述单调组合规则由最小规则单调地构成,其中源语言短语的顺序与所述源语言短语的对应目标语言短语的顺序相同,其中所述最小规则是不能进一步拆分出更小的完整规则的规则,所述完整规则是对应关系不涉及该规则之外的短语的规则,以及短语提取装置,其从源语言或目标语言的单语语料库中提取统计特征满足预定要求的短语作为所述预定短语,其中,所述规则过滤装置还从所提取的规则中过滤掉所识别的单调组合规则,并且所述统计特征包括所提取的短语的C‑value值。 |
地址 |
日本神奈川县 |