用于脱机手写汉字识别的汉字字符切分方法,申请号CN201110357395.7-传众专利搜索

发明名称	用于脱机手写汉字识别的汉字字符切分方法
摘要	本发明公开了一种用于脱机手写汉字识别的汉字字符切分方法，其特征在于，包括下列步骤：(1)对待识别的汉字图像进行预处理，所述预处理包括对图像进行二值化处理；(2)基于投影分析对汉字图像进行粗分割，将非粘连的字符分割成单个字符，将粘连的字符整体分割；(3)获得非粘连字符的平均高度；(4)根据步骤(3)获得的非粘连字符的平均高度，对步骤(2)分割后的字符进行判断，得到粘连字符串集；(5)对于粘连字符串集中的每一粘连字符串，基于最小加权分割路径进行细切分，实现粘连字符的切分。本发明可以有效地自适应分割粘连汉字字符和非粘连汉字字符，具有较高的分割准确率和分割效率。
申请公布号	CN102496013B	申请公布日期	2013.08.21
申请号	CN201110357395.7	申请日期	2011.11.11
申请人	苏州大学	发明人	刘纯平;周双飞;王朝晖;季怡;龚声蓉;蒋德茂
分类号	G06K9/20(2006.01)I	主分类号	G06K9/20(2006.01)I
代理机构	苏州创元专利商标事务所有限公司 32103	代理人	陶海锋
主权项	1.一种用于脱机手写汉字识别的汉字字符切分方法，用于对粘连和非粘连的汉字字符进行切分以识别汉字，其特征在于，包括下列步骤：(1)对待识别的汉字图像进行预处理，所述预处理包括对图像进行二值化处理；(2)基于投影分析对汉字图像进行粗分割，将非粘连的字符分割成单个字符，将粘连的字符整体分割；(3)获得非粘连字符的平均高度；(4)根据步骤(3)获得的非粘连字符的平均高度，对步骤(2)分割后的字符进行判断，得到粘连字符串集；(5)对于粘连字符串集中的每一粘连字符串，基于最小加权分割路径进行细切分，实现粘连字符的切分；步骤(3)中，非粘连字符的平均高度的获得方法是，统计分割后每个字符的高度，获得字符高度集H=(h<sub>1</sub>,h<sub>2</sub>,h<sub>3</sub>,h<sub>4</sub>,……,h<sub>n</sub>)，式中h<sub>n</sub>为第n个字符的高度，对H进行归一化处理，令<img file="FDA00002914695900011.GIF" wi="186" he="133" />其中j为1至n的整数，σ为整数且1≤σ≤h<sub>min</sub>，h<sub>min</sub>=min(h<sub>1</sub>,h<sub>2</sub>,h<sub>3</sub>,h<sub>4</sub>,……,h<sub>n</sub>)，h'<sub>i</sub>取表达式计算后的整数部分，归一化后的高度按从小到大排列的集合为H'=(h<sub>1</sub>',h<sub>2</sub>',h<sub>3</sub>',h<sub>4</sub>',……,h<sub>m</sub>')，其中任何两个元素的值都不相等，C=(c<sub>1</sub>,c<sub>2</sub>,c<sub>3</sub>,c<sub>4</sub>,……,c<sub>m</sub>)记录H’中不同高度出现的频数，取频数最大值对应的归一化高度为h'<sub>k</sub>，则非粘连字符的平均高度是<img file="FDA00002914695900012.GIF" wi="756" he="223" />其中，（h<sub>k</sub>'-δ，h<sub>k</sub>'+δ）表示h<sub>k</sub>'的局部邻域，<maths num="0001"><![CDATA[<math><mrow><mi>δ</mi><mo>=</mo><mfrac><msub><mi>h</mi><mi>min</mi></msub><mrow><mn>2</mn><mi>σ</mi></mrow></mfrac><mo>.</mo></mrow></math>]]></maths>
地址	215123 江苏省苏州市苏州工业园区仁爱路199号