发明名称 文字识别中粘连字符的切分方法和装置
摘要 本发明公开了文字识别中粘连字符的切分方法和装置,属于文字识别领域。方法包括:预处理后获得行图像的连通域、平均字宽和平均字高。进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域保存字块。根据预切分点对提取完毕的笔画进行合并,得到字块。保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列。根据参考信息对字块进行合并,输出识别结果。本发明依据预切分点对笔画进行合并得到字块,保证了更大范围的切分点被检测到;用轮廓信息预检测切分点的方式作为合并时的参数,避免了正确的切分点被合并而带来的合并错误。
申请公布号 CN102169542B 申请公布日期 2012.11.28
申请号 CN201010114226.6 申请日期 2010.02.25
申请人 汉王科技股份有限公司 发明人 王琛
分类号 G06K9/34(2006.01)I 主分类号 G06K9/34(2006.01)I
代理机构 代理人
主权项 一种文字识别中粘连字符的切分方法,其特征在于,包括如下步骤:对输入的行图像进行预处理,获得行图像的连通域、平均字宽和平均字高,所述预处理包括对行图像进行去噪,获得行图像的连通域,分别对连通域的宽度直方图和高度直方图进行平滑,取峰值作为平均字宽和平均字高;进行连通域分析,标记粘连的连通域,对标记的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域直接保存字块;所述对标记的粘连的连通域进行笔画提取时,在标记的连通域内逐行对黑游程进行扫描,取当前黑游程在下一行的对应位置处,且始终点位置各偏移一个像素的范围内的所有黑游程,选择这些黑游程中游程中心与笔画的预测中心最近的黑游程作为待选游程,如果待选黑游程的中心与预测中心点的距离误差小于阈值Thr,则将待选黑游程加入到的该笔画的游程列表中,否则当前笔画提取完毕,开始下一笔画的跟踪,直至该连通域内所有笔画提取完毕;根据预切分点对提取完毕的笔画进行合并,得到字块;保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列;根据参考信息对字块进行合并,输出识别结果。
地址 100193 北京市海淀区东北旺西路8号5号楼三层