发明名称 用于脱机手写汉字识别的汉字字符切分方法
摘要 本发明公开了一种用于脱机手写汉字识别的汉字字符切分方法,其特征在于,包括下列步骤:(1)对待识别的汉字图像进行预处理,所述预处理包括对图像进行二值化处理;(2)基于投影分析对汉字图像进行粗分割,将非粘连的字符分割成单个字符,将粘连的字符整体分割;(3)获得非粘连字符的平均高度;(4)根据步骤(3)获得的非粘连字符的平均高度,对步骤(2)分割后的字符进行判断,得到粘连字符串集;(5)对于粘连字符串集中的每一粘连字符串,基于最小加权分割路径进行细切分,实现粘连字符的切分。本发明可以有效地自适应分割粘连汉字字符和非粘连汉字字符,具有较高的分割准确率和分割效率。
申请公布号 CN102496013B 申请公布日期 2013.08.21
申请号 CN201110357395.7 申请日期 2011.11.11
申请人 苏州大学 发明人 刘纯平;周双飞;王朝晖;季怡;龚声蓉;蒋德茂
分类号 G06K9/20(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 苏州创元专利商标事务所有限公司 32103 代理人 陶海锋
主权项 1.一种用于脱机手写汉字识别的汉字字符切分方法,用于对粘连和非粘连的汉字字符进行切分以识别汉字,其特征在于,包括下列步骤:(1)对待识别的汉字图像进行预处理,所述预处理包括对图像进行二值化处理;(2)基于投影分析对汉字图像进行粗分割,将非粘连的字符分割成单个字符,将粘连的字符整体分割;(3)获得非粘连字符的平均高度;(4)根据步骤(3)获得的非粘连字符的平均高度,对步骤(2)分割后的字符进行判断,得到粘连字符串集;(5)对于粘连字符串集中的每一粘连字符串,基于最小加权分割路径进行细切分,实现粘连字符的切分;步骤(3)中,非粘连字符的平均高度的获得方法是,统计分割后每个字符的高度,获得字符高度集H=(h<sub>1</sub>,h<sub>2</sub>,h<sub>3</sub>,h<sub>4</sub>,……,h<sub>n</sub>),式中h<sub>n</sub>为第n个字符的高度,对H进行归一化处理,令<img file="FDA00002914695900011.GIF" wi="186" he="133" />其中j为1至n的整数,σ为整数且1≤σ≤h<sub>min</sub>,h<sub>min</sub>=min(h<sub>1</sub>,h<sub>2</sub>,h<sub>3</sub>,h<sub>4</sub>,……,h<sub>n</sub>),h'<sub>i</sub>取表达式计算后的整数部分,归一化后的高度按从小到大排列的集合为H'=(h<sub>1</sub>',h<sub>2</sub>',h<sub>3</sub>',h<sub>4</sub>',……,h<sub>m</sub>'),其中任何两个元素的值都不相等,C=(c<sub>1</sub>,c<sub>2</sub>,c<sub>3</sub>,c<sub>4</sub>,……,c<sub>m</sub>)记录H’中不同高度出现的频数,取频数最大值对应的归一化高度为h'<sub>k</sub>,则非粘连字符的平均高度是<img file="FDA00002914695900012.GIF" wi="756" he="223" />其中,(h<sub>k</sub>'-δ,h<sub>k</sub>'+δ)表示h<sub>k</sub>'的局部邻域,<maths num="0001"><![CDATA[<math><mrow><mi>&delta;</mi><mo>=</mo><mfrac><msub><mi>h</mi><mi>min</mi></msub><mrow><mn>2</mn><mi>&sigma;</mi></mrow></mfrac><mo>.</mo></mrow></math>]]></maths>
地址 215123 江苏省苏州市苏州工业园区仁爱路199号