发明名称 用于将汉语拼音翻译成汉字的系统和方法
摘要 本发明披露了一种用于将拼音处理并翻译成汉字和词的系统和方法。通过以下处理训练汉语语言模型:从诸如文件和/或用户输入/查询的汉语输入中提取未知字符串;从未知字符串中确定有效词;以及基于汉语输入生成用于预测给定语境的词串的转换矩阵。用于翻译拼音输入的方法通常包括:使用包括从汉语输入得到的词的汉语字典和基于汉语输入训练的语言模型从拼音输入生成一组汉字符串,每个字符串均具有表示字符串对应于拼音输入的可能性的权重。可以通过识别用户输入中的不确定的拼音/非拼音ASC II词以及分析语境以分类用户输入,来将不确定的用户输入分类成非拼音或拼音。
申请公布号 CN1954315B 申请公布日期 2010.06.23
申请号 CN200580015669.7 申请日期 2005.03.16
申请人 GOOGLE公司 发明人 吴军;朱会灿;朱鸿隽
分类号 G06F17/28(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京康信知识产权代理有限责任公司 11240 代理人 余刚
主权项 一种用于从汉语字符输入训练汉语语言模型的方法,包括:将汉语字符划分为有效词和未知字符串,其中所述有效词是汉语词典中的条目,所述未知字符串不是所述汉语字典中的条目,并且其中所述未知字符串包括汉语字符;为每个未知字符串,确定所述未知字符串的对应第一出现频率以及用于所述未知字符串中的汉语字符中的每个的对应第二出现频率;比较所述第一出现频率和所述第二出现频率以确定信息增益值;比较所述信息增益值和阈值;当所述信息增益大于所述阈值时,将所述字符串确定为新的有效词;将所述新的有效词添加到所述汉语字典中以创建更新的汉语字典;将所述汉语字符重新划分为汉语词,其中,所述汉语词是所述更新的汉语字典中的条目;以及基于所述重新划分生成用于预测给定语境的词的条件概率的转换矩阵。
地址 美国加利福尼亚州