发明名称 基于子结构学的手写中文识别方法
摘要 本发明公开了一种基于子结构学的手写中文识别方法,将字符分割片段视为汉字的子结构,从汉字分割片段样本中提取汉字子结构模式,并将汉字子结构模式纳入汉字分类器训练中,最后结合子结构识别信息和汉字子结构组成信息实现手写中文字符串的识别。本发明基于汉字是由一个或多个子结构组成的这一特点,通过提取汉字子结构,并在汉字分类器中将汉字子结构和汉字单字同时进行训练,能有效提高手写中文字符串识别过程中字符分割片段的识别可靠性,减少由于不可靠的字符分割片段识别导致手写中文字符串的识别错误,提高手写汉字识别精度。
申请公布号 CN103324929B 申请公布日期 2016.05.18
申请号 CN201310255159.3 申请日期 2013.06.25
申请人 天津师范大学;富士通株式会社 发明人 朱远平;何源;孙俊
分类号 G06K9/34(2006.01)I;G06K9/68(2006.01)I 主分类号 G06K9/34(2006.01)I
代理机构 天津市杰盈专利代理有限公司 12207 代理人 朱红星
主权项 一种基于子结构学习的手写中文识别方法,其特征在于,该方法包括子结构学习和基于子结构识别的手写文本识别两大部分;其中,子结构学习包括如下步骤:步骤1.1  局部子结构学习, 从某一个汉字对应的分割样本中通过聚类分析去发现和提取局部子结构模式;步骤1.2  全局子结构学习, 合并前各局部子结构对应的字符分割片段样本,作为对应全局子结构的训练样本;步骤1.3  创建子结构字典,存储子结构列表和字符分割模式列表;子结构列表中存储步骤1.2中获得的全局子结构;字符分割模式列表记录所有汉字的字符分割模式;步骤1.4  子结构识别器训练;基于子结构识别的手写文本识别部分包括如下步骤:步骤2.1  字符分割, 采用过分割的方法,使一个字符由一个或多个分割片段组成;步骤2.2  分割片段组合生成, 相邻的一个或几个分割片段组成一个分割片段子序列,按不同组合方式,对分割片段序列进行划分,再按顺序连接成一个分割片段序列组合;步骤2.3  基于字符识别器的汉字识别, 以分割片段子序列为单位,使用字符识别器逐个进行识别,并获得字符分割片段子序列的字符识别置信度;步骤2.4  基于子结构识别器的汉字识别, 先在分割片段上使用子结构识别器进行子结构识别,然后通过子结构序列寻找匹配的汉字分割模式,实现汉字识别;步骤2.5  分割路径搜索,一个分割片段序列组合将对应一条分割路径,分割路径搜索为在所有的分割路径中寻找字符串识别置信度最高的一条分割路径,并将该分割路径对应的识别结果作为最终识别结果。
地址 300387 天津市西青区宾水西道393号