发明名称 汉语音字转换方法及系统、区分性词典的构建方法
摘要 本发明实施例提供一种汉语音字转换方法以及系统、区分性词典的构建方法;所述汉语音字转换方法包括:根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。通过本发明实施例,可以进一步提高音字转换的正确率。
申请公布号 CN102750267B 申请公布日期 2015.02.25
申请号 CN201210202471.1 申请日期 2012.06.15
申请人 北京语言大学 发明人 张劲松;李伟;解焱陆;曹文
分类号 G06F17/22(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京三友知识产权代理有限公司 11127 代理人 田勇
主权项 一种汉语音字转换方法,基于区分性词典;其特征在于,所述汉语音字转换方法包括:根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换;其中,所述汉语音字转换方法还包括:通过文本和拼音的互信息调整语句中所有可能的字词边界,来构建所述区分性词典;具体包括:根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解码以获得不同的拼音切换方式;从所述不同的拼音切换方式中确定互信息最大的拼音切换方式;根据所述互信息最大的拼音切换方式切割与所述训练拼音串对应的文本,并统计切割后的文本以获得新的词典。
地址 100083 北京市海淀区学院路15号