发明名称 一种基于汉字混淆集的错字词知识生成方法
摘要 本发明公开了一种基于汉字混淆集的错字词知识生成方法,该方法首先利用正确词词典和汉字混淆集生成混淆词集合;通过语料和规则对生成的混淆词集合进行剪枝完成初步过滤;再采用正向最大匹配分词对初步过滤完后的混淆词集合中的混淆词进行分词,根据预先设置的错字词判断规则利用统计知识对混淆词进行验证,最终生成错字词知识。本发明方法解决了现有的人工校对效率低且劳动量大的问题,利用本发明方法所得到的错字词知识进行自动校对和纠错,提高了中文文本自动校对的纠错质量和纠错速度。
申请公布号 CN105573979A 申请公布日期 2016.05.11
申请号 CN201510917790.4 申请日期 2015.12.10
申请人 江苏科技大学 发明人 顾德之;刘亮亮;吴健康;刘海波;张再跃;张晓如
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 许丹丹
主权项 一种基于汉字混淆集的错字词知识生成方法,其特征在于,包括以下步骤:(1)以汉语词典中某一多字词为正确词,根据汉字混淆集获取所述正确词的所有混淆词,所述混淆词的集合为混淆词集合;(2)根据所述汉语词典和语料库对所述混淆词集合进行剪枝得到初步过滤的混淆词集合;(3)根据语料库对所述初步过滤的混淆词集合中的混淆词进行分词得到分词项,并根据分词项利用预先设定的错词判断规则判断混淆词是否为错词,若为错词则保留,并和所述正确词进行关联形成二元组;将所述汉语词典中的每个词语均按照步骤(1)至(3)中的操作关联每个词语与其混淆词,最终形成错字词知识。
地址 212003 江苏省镇江市梦溪路2号