发明名称 一种汉语同音词错误自动校对方法
摘要 本发明公开了一种汉语同音词错误自动校对方法,该方法首先生成汉语词的同音词混淆集,然后通过大规模Web语料训练统计左邻接二元、右邻接二元、邻接三元模型,利用同音词混淆集与概率估计算法得到局部邻接NGram模型,然后利用带权重的组合方法,通过计算句子中的词及其对应的同音词混淆集中的同音词在句子中的上下文支持度,判断是否存在同音词错误,并对同音词错误进行标记并给出修改建议列表,从而实现汉语同音词的自动校对。本发明提供的同音词错误自动校对方法,系统响应快、精度符合实际应用需求,有效性和准确性高。
申请公布号 CN105045778A 申请公布日期 2015.11.11
申请号 CN201510354692.4 申请日期 2015.06.24
申请人 江苏科技大学 发明人 吴健康;严熙;刘亮亮
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 许丹丹
主权项 一种汉语同音词错误自动校对方法,其特征在于,基于同音词混淆集和带权重的局部邻接NGram模型组合判断法进行汉语同音词错误自动校对,该方法包括以下步骤:1)通过汉字拼音,建立汉语词的同音词混淆集;2)建立左二元、右二元和三元的局部邻接NGram模型,基于步骤1)得到的同音词混淆集,通过概率估计方法对所述局部邻接NGram模型进行概率估计,通过大规模语料训练得到局部邻接NGram模型;3)基于步骤2)得到的局部邻接NGram模型,利用带权重的组合方法,通过计算句子中的词及其对应的同音词混淆集中的同音词在句子中的上下文支持度,判断是否存在同音词错误,并对同音词错误进行标记并给出修改建议列表。
地址 212003 江苏省镇江市梦溪路2号