发明名称 一种表格文档图像中字符提取方法
摘要 本发明涉及图像处理、计算机视觉技术领域,具体涉及一种表格文档图像中字符提取方法,包括以下步骤:通过边缘检测与Hough变换算法提取出图像中的线段;根据线段的方向分布估计整幅图像的倾斜角度,对图像进行倾斜校正;对水平和垂直方向上的线段进行连接,定位出表格的单元格;针对每个单元格,采用最大类间方差方法进行图像二值化,分割出单元格中的整行字符,通过滑动窗口法提取出单元格中的每个字符;根据单元格框线的统计特征,对字符的笔画缺失进行恢复。本发明具有较好的灵活性,能够有效处理字符间粘连以及字符与表格线重叠的情况,大大减少粘连和重叠问题对OCR字符识别的影响。
申请公布号 CN103258198B 申请公布日期 2015.12.23
申请号 CN201310148624.3 申请日期 2013.04.26
申请人 四川大学 发明人 王俊峰;高琳;姬郁林;李虹
分类号 G06K9/20(2006.01)I;G06K9/54(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 成都信博专利代理有限责任公司 51200 代理人 舒启龙
主权项 一种表格文档图像中字符提取方法,其特征在于包括以下步骤:步骤一,将采集的彩色表格图像转化为灰度图像,对灰度图像进行高斯平滑,去除图像中的噪声;步骤二,利用边缘检测算子对图像进行卷积运算,再采用最大类间方差方法对图像进行二值化处理,然后采用Hough算法检测出边缘上的直线段;步骤三,将上一步得到的直线段按长度从大到小排序,选择最长的几个直线段,计算直线段相对于水平方向的倾斜角度;对这些倾斜角度排序,取中值作为图像的倾斜角度,通过旋转图像对其进行倾斜校正;步骤四,在倾斜校正后的图像中,保留水平方向和垂直方向上的直线段,去除其他直线段;计算不同直线段端点之间的距离,如果小于设定的阈值,则对直线段进行连接,获得表格的单元格图像;步骤五,针对每个单元格图像,分别采用最大类间方差方法进行图像分割,将单元格上像素灰度值设为背景灰度,使得区域中仅保留字符;设置滑动窗口,通过从左到右对窗口进行滑动搜索,分割出单元格中的每个字符;步骤六,针对上一步骤中提取出的单个字符,如果该字符没有与单元格框线重叠,则直接作为结果输出,否则根据字符与框线的重叠情况,对上述步骤中去除框线造成的笔画缺失进行恢复。
地址 610065 四川省成都市武侯区一环路南一段24号