发明名称 带有下划线的文本图像预处理方法和装置
摘要 本发明公开了一种带有下划线的文本图像预处理方法和装置,涉及光学字符识别领域。包括:获取文本图像中的各文字行位置;根据各文字行位置采用游程查找方法在各文字行中进行查找,初步判定文字行中如果存在下划线,则定位下划线的初始上边界的位置;以下划线的初始上边界为起始像素行,采用游程查找与连通域分析的方法对下划线区域进行定位,并从下划线区域中分离字符的笔画区域,得到待删除区域;将待删除区域中的前景信息置为背景,得到去除下划线的字符区域。本发明根据各文字行位置采用游程查找方法在各文字行中进行查找,解决了带下划线尤其是与字符粘连的下划线的文本难以识别的问题,提高了字符的识别率,使得识别核心的适应性更强。
申请公布号 CN102446274A 申请公布日期 2012.05.09
申请号 CN201010299203.7 申请日期 2010.09.30
申请人 汉王科技股份有限公司 发明人 万鑫;刘正珍
分类号 G06K9/34(2006.01)I;G06K9/20(2006.01)I 主分类号 G06K9/34(2006.01)I
代理机构 代理人
主权项 一种带有下划线的文本图像预处理方法,其特征在于:包括以下步骤,步骤1:获取文本图像中的各文字行位置;步骤2:根据各文字行位置采用游程查找方法在各文字行中进行查找,初步判定文字行中是否存在下划线,如果存在下划线则定位下划线的初始上边界的位置;步骤3:以下划线的初始上边界为起始像素行,采用游程查找与连通域分析的方法对下划线区域进行定位,并从下划线区域中分离字符的笔画区域,得到待删除区域;步骤4:将待删除区域中的前景信息置为背景,得到去除下划线的字符区域。
地址 100193 北京市海淀区东北旺西路8号5号楼三层