发明名称 | 一种汉语离合词的自动识别方法 | ||
摘要 | 本发明公开了一种汉语离合词的自动识别方法,包括以下步骤:1)利用带距离信息的Gram对分词后的语料进行统计的步骤;2)离合词模式候选库的生成步骤;3)离合词自动识别的步骤:遍历离合词模式候选库,计算得到满足离合模式的离合词候选的离合置信度和离合支持度,并根据所述离合置信度和离合支持度与对应预设阈值的比较,实现离合词的自动识别。本发明有利于更为精准的开展自然语言的信息化处理工作,可广泛应用于中文文本自动校对领域中离合词的自动识别,可有效改善“将离合词中间的插入的字或词当做插入错误”的误判,也可以避免矫枉过正,将“不是离合词却类似离合词式的插入错误”被全部过滤掉而产生的漏判,具有较高的实用意义。 | ||
申请公布号 | CN105512106A | 申请公布日期 | 2016.04.20 |
申请号 | CN201510907012.7 | 申请日期 | 2015.12.09 |
申请人 | 江苏科技大学 | 发明人 | 刘亮亮;吴健康;严熙;王亚楠;朱润 |
分类号 | G06F17/27(2006.01)I | 主分类号 | G06F17/27(2006.01)I |
代理机构 | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人 | 许丹丹 |
主权项 | 一种汉语离合词的自动识别方法,其特征在于该方法包括以下步骤:1)利用带距离信息的Gram对分词后的语料进行统计的步骤:对分词后的语料,结合离合词的定义和特点,利用带距离的Gram来统计分词后语料库中的统计信息;2)离合词模式候选库的生成步骤:根据离合词的特点,将满足离合模式的离合词候选,及其对应的离合词候选模式串加入到离合词模式候选库中;3)离合词自动识别的步骤:遍历离合词模式候选库,计算得到满足离合模式的离合词候选的离合置信度和离合支持度,并根据所述离合置信度和离合支持度与对应预设阈值的比较,实现离合词的自动识别。 | ||
地址 | 212003 江苏省镇江市梦溪路2号 |