发明名称 通过动态学提取规则来获取词表外的翻译
摘要 提供了一种用于识别双语术语对的集合,并且从双语数据对的集合中识别出与双语术语对在双语网页中的布局有关的候选模式的集合的方法和装置。一个或多个最佳模式可以基于在候选模式中被识别出来的特征而被从候选模式的集合中选择出来。使用一个或多个所选择的模式,翻译对候选的集合可以被提取出来。翻译对候选可以被验证,以确定每个翻译对候选为精确翻译的可能性。基于验证,一些或全部翻译对候选可以被作为不正确的翻译丢弃,并且剩下的翻译对候选可以被识别为正确的翻译对。
申请公布号 CN102550049A 申请公布日期 2012.07.04
申请号 CN200980161654.X 申请日期 2009.09.25
申请人 雅虎公司 发明人 史磊
分类号 H04W4/00(2006.01)I 主分类号 H04W4/00(2006.01)I
代理机构 北京东方亿思知识产权代理有限责任公司 11258 代理人 宋鹤
主权项 一种方法,包括:在双语网页中识别一个或多个双语术语对的集合,其中双语术语对包括第一语言的第一术语和第二语言的第二术语;至少部分地基于所述双语网页中的所述一个或多个双语术语对的布局,识别一个或多个候选模式;在每个候选模式中识别一个或多个特征;至少部分地基于每个候选模式的一个或多个特征,选择第一候选模式;至少部分地基于所述第一候选模式,在所述双语网页中识别候选翻译对的集合;其中,所述方法由一个或多个专用计算设备执行。
地址 美国加利福尼亚州