主权项 |
一种基于子结构学习的手写中文识别方法,其特征在于,该方法包括子结构学习和基于子结构识别的手写文本识别两大部分;其中,子结构学习包括如下步骤:步骤1.1 局部子结构学习, 从某一个汉字对应的分割样本中通过聚类分析去发现和提取局部子结构模式;步骤1.2 全局子结构学习, 合并前各局部子结构对应的字符分割片段样本,作为对应全局子结构的训练样本;步骤1.3 创建子结构字典,存储子结构列表和字符分割模式列表;子结构列表中存储步骤1.2中获得的全局子结构;字符分割模式列表记录所有汉字的字符分割模式;步骤1.4 子结构识别器训练;基于子结构识别的手写文本识别部分包括如下步骤:步骤2.1 字符分割, 采用过分割的方法,使一个字符由一个或多个分割片段组成;步骤2.2 分割片段组合生成, 相邻的一个或几个分割片段组成一个分割片段子序列,按不同组合方式,对分割片段序列进行划分,再按顺序连接成一个分割片段序列组合;步骤2.3 基于字符识别器的汉字识别, 以分割片段子序列为单位,使用字符识别器逐个进行识别,并获得字符分割片段子序列的字符识别置信度;步骤2.4 基于子结构识别器的汉字识别, 先在分割片段上使用子结构识别器进行子结构识别,然后通过子结构序列寻找匹配的汉字分割模式,实现汉字识别;步骤2.5 分割路径搜索,一个分割片段序列组合将对应一条分割路径,分割路径搜索为在所有的分割路径中寻找字符串识别置信度最高的一条分割路径,并将该分割路径对应的识别结果作为最终识别结果。 |