发明名称 一种自然手写阿拉伯字母联机识别方法
摘要 本发明公开了一种自然手写阿拉伯字母联机识别方法,优点在于提出的基于阿拉伯字母局部特征的逐级多层粗分类算法充分利用了阿拉伯字母的各种局部特征,以字母的笔划数作为第一层粗分类依据,得到输入的手写阿拉伯字母匹配的第一候选字母集合,再根据其它局部特征和第一候选字母集合,得到输入的手写阿拉伯字母匹配的第二候选字母集合,该算法的应用使输入的手写阿拉伯字母只需与预先设定的字库中与第二候选字母集合相应的标准字母进行匹配识别,与直接将输入的手写阿拉伯字母与预先设定的字库中的所有标准字母进行匹配识别相比,有效减小了输入的手写阿拉伯字母匹配识别的搜索范围、提高了匹配速度,并提高了识别精确度。
申请公布号 CN101398902B 申请公布日期 2012.07.04
申请号 CN200810121396.X 申请日期 2008.09.27
申请人 宁波新然电子信息科技发展有限公司 发明人 何加铭;闻建芬;贾德祥;陈静;陈平;马成臣;范周镒;丁洪珍;史智慧;史爱军;樊玲慧
分类号 G06K9/68(2006.01)I 主分类号 G06K9/68(2006.01)I
代理机构 宁波奥圣专利代理事务所(普通合伙) 33226 代理人 程晓明
主权项 1.一种自然手写阿拉伯字母联机识别方法,其特征在于包括以下步骤:①对输入终端设备的手写阿拉伯字母的笔迹坐标进行采集,并将采集到的笔迹坐标实时存储到预先定义的结构体数组中;②对存储在结构体数组中的笔迹坐标及由笔迹坐标转换成矩阵形式存放构成的笔迹坐标点阵进行预处理,包括以下具体步骤:②-1、对存储在结构体数组中的笔迹坐标进行平滑滤波、去除硬件噪声及手写时产生的毛刺和断笔;②-2、利用联机单点宽度手写体的线性规一化和非线性规一化算法对由经过步骤②-1处理后的笔迹坐标转换成矩阵形式存放构成的笔迹坐标点阵进行线性规一化和非线性规一化处理,得到新笔迹坐标点阵,具体为:a1.采用公知的坐标框图比例缩放和直接投影的方法,将由经过步骤②-1处理后的笔迹坐标转换成矩阵形式存放构成的笔迹坐标点阵线性规一化到标准坐标点阵;a2.将标准坐标点阵中的标准坐标点表示为(x,y),并将标准坐标点(x,y)划分成非笔迹坐标点和笔迹坐标点;a3.计算标准坐标点(x,y)的密度函数d(x,y),<img file="FSB00000515574200011.GIF" wi="895" he="135" />其中,Lx为当前所取标准坐标点的位置上的横向密度,Ly为当前所取标准坐标点的位置上的竖向密度,A表示标准坐标点阵的长度,其值为64;a4.根据标准坐标点(x,y)的密度函数d(x,y)计算标准坐标点(x,y)的水平密度投影函数H(x)和垂直密度投影函数V(y),<img file="FSB00000515574200012.GIF" wi="522" he="128" /><img file="FSB00000515574200013.GIF" wi="484" he="156" />其中,d(x,y)为标准坐标点(x,y)的密度函数,I×J表示标准坐标点阵的大小,其值为64×64,aH和av为矫正系数,其值均为0.1;a5.利用水平密度投影函数H(x)和垂直密度投影函数V(y)进行非线性规一化,求取新笔迹坐标点阵,<img file="FSB00000515574200014.GIF" wi="482" he="186" /><img file="FSB00000515574200015.GIF" wi="458" he="195" />其中,I×J表示标准坐标点阵的大小,其值为64×64;M×N表示非线性规一化处理后得到的新笔迹坐标点阵的大小,其值预先设定为64×64;(m,n)为新笔迹坐标点阵中的坐标点;i=1,2,…,I,j=1,2,…,J;②-3、对经过步骤②-2处理后得到的新笔迹坐标点阵中丢失的有效特征点进行补点操作;③利用基于阿拉伯字母局部特征的逐级多层粗分类算法,首先根据阿拉伯字母的形状特征,将所有标准阿拉伯字母分成四类,按输入的手写阿拉伯字母的笔划数直接得到与该输入的手写阿拉伯字母匹配的第一候选字母集合;再根据输入的手写阿拉伯字母的局部特征和第一候选字母集合,得到与该输入的手写阿拉伯字母匹配的第二候选字母集合,局部特征包括字母的笔划数、字母的笔段数、字母的竖向穿越数、字母的横向穿越数、字母中是否存在点笔划、点笔划的数目及点笔划所处位置;具体步骤为:③-1、第一层粗分类:根据阿拉伯字母的形状特征,将所有标准阿拉伯字母分成case1类、case2类、case3类和case4类四类,case1类包括笔划数为1笔的字母,case2类包括笔划数为2笔的字母,case3类包括笔划数为3笔的字母,case4类包括笔划数为4笔的字母,按输入的手写阿拉伯字母的笔划数直接得到与该输入的手写阿拉伯字母匹配的第一候选字母集合;③-2、第二层粗分类:当第一候选字母集合与case1类相应时,对输入的手写阿拉伯字母进行笔段分割,具体过程为:定义经过步骤②处理后得到的新笔迹坐标点阵中表示输入的手写阿拉伯字母首笔划中的落笔的新笔迹坐标点为当前笔迹坐标点;判断当前笔迹坐标点与与其相隔一个新笔迹坐标点的两新笔迹坐标点构成的夹角是否大于设定的阈值,当夹角大于设定的阈值时,则确定当前笔迹坐标点为初步拐点;对下一个新笔迹坐标点作同样的处理,得到所有的初步拐点;将所有初步拐点中正在处理的初步拐点定义为当前初步拐点,将当前初步拐点相邻的两个初步拐点中与当前初步拐点之间的矢量距离较近的一个初步拐点删除,直至所有的初步拐点处理完毕,得到所有优化拐点;以优化拐点为界对输入的手写阿拉伯字母进行分割得到笔段;当分割得到的笔段数为1时,直接得到该输入的手写阿拉伯字母匹配的第二候选字母集合;当分割得到的笔段数大于1时,计算该输入的手写阿拉伯字母的竖向穿越数S,当S=1或S=2时,计算该输入的手写阿拉伯字母的横向穿越数H,根据横向穿越数H得到该输入的手写阿拉伯字母匹配的第二候选字母集合,当S=3时,根据该输入的手写阿拉伯字母的末笔划中的提笔的走向得到该输入的手写阿拉伯字母匹配的第二候选字母集合,当S=4时,直接得到该输入的手写阿拉伯字母匹配的第二候选字母集合;当第一候选字母集合与case2类相应时,判断输入的手写阿拉伯字母的笔划中是否存在点笔划,如果存在点笔划,则当点笔划的数目为1时,根据点笔划处于该输入手写阿拉伯字母的上方、下方或内部位置,分别得到该输入的手写阿拉伯字母匹配的第二候选字母集合;当点笔划的数目为2时,直接得到该输入的手写阿拉伯字母匹配的第二候选字母集合;如果不存在点笔划,则再根据该手写阿拉伯字母是否为上下结构,分别得到该手写阿拉伯字母匹配的第二候选字母集合;当第一候选字母集合与case3类相应时,判断输入的手写阿拉伯字母中除点笔划之外的其他笔划是否首尾相连,如果首尾相连,则直接得到该输入的手写阿拉伯字母匹配的第二候选字母集合,如果首尾不相连,再判断点笔划的位置,如果点笔划处于该输入的手写阿拉伯字母的上方,则计算该输入的手写阿拉伯字母的竖向穿越数S,当S=1或S=2时,计算该输入的手写阿拉伯字母的横向穿越数H,根据横向穿越H得到该输入的手写阿拉伯字母匹配的第二候选字母集合,当S=3时,根据该输入的手写阿拉伯字母的末笔划中的提笔的走向得到该输入的手写阿拉伯字母匹配的第二候选字母集合,当S=4时,直接得到该输入的手写阿拉伯字母匹配的第二候选字母集合,如果点笔划处于该手写阿拉伯字母的下方,则直接得到该输入的手写阿拉伯字母匹配的第二候选字母集合;当第一候选字母集合与case4类相应时,计算输入的手写阿拉伯字母中除点笔划之外的其他笔划的横向穿越数H,当横向穿越数H大于等于3时,直接得到该输入的手写阿拉伯字母匹配的第二候选字母集合,当横向穿越数H小于3时,直接得到该输入的手写阿拉伯字母匹配的第二候选字母集合;④提取输入的手写阿拉伯字母的freeman链码,计算该输入的手写阿拉伯字母的freeman链码与预先设定的字库中与第二候选字母集合中每个字母相应的各个标准字母的最优隐马可夫模型的匹配概率,再从各个匹配概率中获取最大匹配概率,将预先设定的字库中与最大匹配概率对应的标准字母确定为输入的手写阿拉伯字母的最终识别结果。
地址 315211 浙江省宁波市风华路818号宁波大学曹光彪信息楼425室