发明名称 一种汉语离合词的自动识别方法
摘要 本发明公开了一种汉语离合词的自动识别方法,包括以下步骤:1)利用带距离信息的Gram对分词后的语料进行统计的步骤;2)离合词模式候选库的生成步骤;3)离合词自动识别的步骤:遍历离合词模式候选库,计算得到满足离合模式的离合词候选的离合置信度和离合支持度,并根据所述离合置信度和离合支持度与对应预设阈值的比较,实现离合词的自动识别。本发明有利于更为精准的开展自然语言的信息化处理工作,可广泛应用于中文文本自动校对领域中离合词的自动识别,可有效改善“将离合词中间的插入的字或词当做插入错误”的误判,也可以避免矫枉过正,将“不是离合词却类似离合词式的插入错误”被全部过滤掉而产生的漏判,具有较高的实用意义。
申请公布号 CN105512106A 申请公布日期 2016.04.20
申请号 CN201510907012.7 申请日期 2015.12.09
申请人 江苏科技大学 发明人 刘亮亮;吴健康;严熙;王亚楠;朱润
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 许丹丹
主权项 一种汉语离合词的自动识别方法,其特征在于该方法包括以下步骤:1)利用带距离信息的Gram对分词后的语料进行统计的步骤:对分词后的语料,结合离合词的定义和特点,利用带距离的Gram来统计分词后语料库中的统计信息;2)离合词模式候选库的生成步骤:根据离合词的特点,将满足离合模式的离合词候选,及其对应的离合词候选模式串加入到离合词模式候选库中;3)离合词自动识别的步骤:遍历离合词模式候选库,计算得到满足离合模式的离合词候选的离合置信度和离合支持度,并根据所述离合置信度和离合支持度与对应预设阈值的比较,实现离合词的自动识别。
地址 212003 江苏省镇江市梦溪路2号