发明名称 字符识别方法与系统
摘要 本发明涉及一种字符识别方法与系统。抽取字符图象的笔划特征,直接利用笔划特征对字符进行分类和匹配识别。字符的结构词义采用框架形式的知识表达,框架中强调有重要影响的笔划和笔划连接,忽视作用不大的笔划,给出允许畸变的笔划方向以及为辨析相似字所必须的比较条件,十分有利于突出字符间的区别又简化了匹配识别的过程。较之目前通用的字符识别技术具有更高的识别率和适应能力。
申请公布号 CN1066335A 申请公布日期 1992.11.18
申请号 CN92103651.5 申请日期 1992.05.12
申请人 浙江大学 发明人 杨源远;路浩如;杨震;杨平勇;李璇
分类号 G06K9/00 主分类号 G06K9/00
代理机构 浙江大学专利代理事务所 代理人 陈祯祥
主权项 1、一种字符识别方法,对书写有字符的页面扫描获得字符图象为第一步骤;字符图象二值化、字符切分及规格化为第二步骤;抽取字符二值化点阵的笔划结构特征为第三步骤;由结构特征求得分类特征码以确定所属分类为第四步骤;将结构特征与所属分类的字符模型进行匹配并识别之为第五步骤;将识别结果转为可见输出为第六步骤,本发明的特征是: 所述的第三步骤包括: (1)字符结构模式作为模式整体可以分解为元字符、笔划和笔划元三种子模式,元字符是构造字符的字符。笔划分解为直线段即为笔划元。笔划元是最低级子模式,用作描述字符模式的结构基元,其结构特征包括笔划元中心坐标、长度、方向和连接关系。(2)对字符点阵作一次简单的扫描,检测每一象元在8个方向上与相邻象元的连接情况,将其区分为笔划的始端、终端、连接区或普通笔划元素并标记相应的符号,从而将字符点阵平面(CDP)转换成字符象元属性平面(CAP)。 (3)除属于连接区的象元以外,在CAP上处于边缘点的象元,计算其“︱”、“-”、“/”“\”四个方向上连续的象元个数en,en最大的方向取作该边缘点的纤维主方向。在主方向上的en值称作纤维长度,纤维长度上连接的象元赋以主方向相应的权值。各边缘点的纤维可能相交形成交织区,交织区的象元其方向权值累加。所有边缘点完成上述计算后即可求得字符纤维结构图(CFP)。 (4)对照CAP连接区的方向特征,除去CFP中的噪声纤维,将属于“︱”、“-”、“/”、“\”四个方向的纤维分别置于v、h、s、b四个平面中,即可求得每一笔划元的中心坐标、长度和方向。 (5)利用CAP的端点和连接区特征,结合已经求到的笔划元中心坐标、长度和方向可以计算笔划元的连接关系。 所述的第四步骤包括: (1)应用字符外围结构的四角特征和四边特征作为字符的分类特征,在二个层次上进行外围结构的描述和分类。由已知字符的四角特征和四边特征建立预分类字典。 (2)在字符的笔划平面上(CSP)以平面的四个角为中心,搜索距离四角最近的笔划元。 (3)判断最近角点的笔划元方向属性,并分成横、竖、撇、捺、角、交六种类型,赋以相应的编码,称作角码。由四个角码组成的码串构成字符的第一分类特征。 (4)在CSP上由中心引出射线,按顺时针扫描,获得射线与字符最外层笔划元所组成的多边形作为字符外围轮廓,抽取其超过某一阈值的凸点,分别计数每一边的凸点数求得四边的码串构成字符的第二分类特征。 (5)查找预分类字典中与待识字符四角码及四边码相同的同类字符代码,完成第四步骤。 所述的第五步骤: (1)字符结构词义采用框架形式的知识表达,由字符框架表达每一字符模式。在框架中,构成字符的全部笔划元分别在h、v、s、b四个平面上分组排序,并列出必要的笔划连接关系和相似字之间笔划元特征的辨析条件。在字符框架中参与分组排序的每一个笔划元由笔划元框架描述。笔划元框架表达笔划元之正常方向、中心位置和长度。此外,还给出该笔划的权重和允许的畸变方向。字符框架中的必要连接关系和笔划元框架中的权重属于运用知识表达、强调对识别结果有重要影响的笔划元及其连接关系而忽视那些冗余的或影响不大的成份。相似字辨析条件和允许的畸变方向使得识别过程既能顾及在结构复杂而且数量庞大的字符集中辨认不同字符间笔划结构的细微差别,又能对变化万千的字形具有良好的适应能力。 (2)取出预分类同类的字符模型,依次与待识字符的笔划元特征进行搜索匹配、计算属性距离,若距离小于某一阈值认为匹配成功,否则认为匹配失败。如此过程在每个模型的四个笔划元子平面上依次执行直至结束。 (3)按照笔划框架指定的权重计算笔划元属性的加权距离。对字符结构起关键作用的笔划元由于有最高的权重而便于区分字符间笔划的细微差异,影响不大的笔划元有较小的权重,从而达到忽略冗余笔划的目的。 (4)匹配未成的笔划元中若存在容许畸变方向的、转向相应方向的样本子平面搜索匹配。 (5)对必要的连接关系进行检测,不满足这一要求时退出匹配候选列。 (6)检测笔划元比较和相似字符辨析条件,不满足要求时退出匹配候选列。 (7)匹配总距离在阈值范围内的所有字符,按距离从小到大排序,取出最小的几个作为识别候选字,若无识别候选字以拒识处理。
地址 310027浙江省杭州市玉泉