发明名称 一种中文变异文本匹配识别方法
摘要 一种中文变异文本匹配识别方法,该方法通过将目标文本和模式字符串进行特殊的编码转换以提高文本的相似度,并根据模式字符串中汉字字符结构特征对转换后的模式字符串添加适当的通配符,然后采用精确字符串匹配算法(即CV-BM算法)进行匹配。解决了变异文本中形近字替换及基于形近错别字替换的难以匹配的问题。能够解决形近字替换及基于形近错别字替换的文本变异难以匹配的情况,较图像分割识别方法有着更小的时间和空间复杂度,更适宜于高速网络数据传输环境中的中文信息快速匹配,可以广泛的应用于需要对中文信息进行匹配的入侵防御系统、信息检索等系统中。
申请公布号 CN101976253B 申请公布日期 2013.03.06
申请号 CN201010521160.2 申请日期 2010.10.27
申请人 重庆邮电大学 发明人 程克非;李红波;郭瑞杰;席珍
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 重庆华科专利事务所 50123 代理人 康海燕
主权项 中文变异文本匹配识别方法,其特征在于,构建由通配符和标识符组成的基于部首字符编码表及模式字符串编码转换表;字符识别单元依次读取模式字符串中字符,逐个与模式字符串编码转换表中标识符比较,将模式字符串存放在待匹配模式字符串存储单元中;将待匹配目标文本与模式字符串对齐,逐个比较模式字符串和待匹配目标文本中对应的字符,若对应的字符不相同时,匹配后跳单元计算后跳距离,将最大后跳距离写入后跳临时存储单元,指针控制单元读取后跳临时存储单元的信息,并触发计数器将待匹配目标文本指针移动最大后跳距离,使模式字符串和待匹配目标文本按最大后跳距离重新对齐,并继续扫描,直至完成整个待匹配文本匹配;所述基于部首字符编码表的构建方法为,拆分单元按照模式字符串字符结构将字符拆分为包括字符部首和形旁的字符基本单元,用64个不同标识符代替字符基本单元,每个字符基本单元设置对应的标识符,每个模式字符串采用四个以上不同标识符编码,如果不足四位的通过添加特殊的标识符补足;所述模式字符串编码转换表的构建方法为,查询模块查询基于部首字符编码表,获取字符基本单元中形旁存在的位置,根据形旁位置在字符中是否固定确定用相应的通配符替换该字符在基于部首字符编码表中对应标识符的位置。
地址 400065 重庆市南岸区黄桷垭崇文路2号