发明名称 用于将输入文本从第一字符集音译到第二字符集的技术
摘要 公开了用于进行第一字符集的输入文本到第二字符集的音译的计算机实现的技术。该技术包括接收输入文本,以及基于多个映射标准来确定输入文本的可能音译的集合。每个映射标准限定第一字符集的字符到第二字符集的字符的映射。该技术还包括基于可能音译和文本语料库来确定目标语言的候选词的集合。该技术还包括基于目标语言的语言模型和先前所接收的词来确定候选词中的每一个候选词的似然得分。该技术还包括基于似然得分来提供一个或更多候选词,以及接收指示候选词之一的用户选择。
申请公布号 CN104272223A 申请公布日期 2015.01.07
申请号 CN201280072741.X 申请日期 2012.02.28
申请人 谷歌公司 发明人 杨帆;基里尔·布里亚克;袁锋;廖宝华
分类号 G06F3/023(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F3/023(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 杜诚;陈炜
主权项 一种计算机实现的方法,包括:在具有一个或更多处理器的计算设备处接收第一字符集的输入文本;在所述计算设备处基于多个映射标准确定所述输入文本的可能音译的集合,所述可能音译的集合中的每个可能音译对应于所述输入文本到与目标语言对应的第二字符集的音译,所述多个映射标准中的每个映射标准限定所述第一字符集的字符到所述第二字符集的字符的映射,并且每个映射标准具有关联的音译概率,每个音译概率指示所述音译概率对应的映射标准适于将所述输入文本音译到所述第二字符集的似然度;基于所述音译概率来确定所述可能音译中的每个可能音译的音译得分,所述音译得分指示所述音译得分对应的可能音译是所述输入文本的准确音译的似然度;在所述计算设备处基于所述可能音译的集合和所述目标语言的文本语料库确定所述目标语言的候选词的集合,其中,所述候选词的集合包括所述文本语料库中的与所述可能音译的集合中的一个可能音译匹配的词、与所述可能音译的集合中的一个可能音译相似的词以及发音与所述可能音译的集合中的一个可能音译相似的词;在所述计算设备处基于所述目标语言的语言模型和所接收的一个或更多先前词确定所述候选词的集合中的每一个候选词的似然得分,每个似然得分指示相应的候选词对应于所述输入文本的概率;基于所述似然得分从所述计算设备提供所述候选词的集合中的一个或更多候选词;接收指示所述候选词之一的用户选择;在所述计算设备处确定所述多个映射标准中所选择的候选词所基于的特定映射标准;以及在所述计算设备处基于对所述特定映射标准的所述确定来调整所述音译概率。
地址 美国加利福尼亚州