发明名称 |
文字行提取方法和装置 |
摘要 |
本发明提供一种文字行提取方法和装置,属于光学字符识别领域。包括:对全景二值图像的各连通域统计,得到字符宽度和字符高度,根据字符宽度和字符高度对各连通域合并;将得到各第一尺度块间的参考水平间距,根据参考水平间距将各第一尺度块合并;将得到各第二尺度块间的第二参考水平间距,根据第二参考水平间距将各第二尺度块合并;将得到的第三尺度块排序后将第三尺度块左右两端既定数目的第一尺度块作延长线,根据延长线将各第三尺度块合并为文字行。本发明分别对应字符、单词和词段进行多尺度合并,再以得到的文字行为基础自顶向下将被排除的尺度块添加回文字行中,减少了不完整字符对文字行提取的干扰,保证了得到的文字行的有效性和准确性。 |
申请公布号 |
CN102063619B |
申请公布日期 |
2013.03.13 |
申请号 |
CN201010568411.2 |
申请日期 |
2010.11.30 |
申请人 |
汉王科技股份有限公司 |
发明人 |
李永彬 |
分类号 |
G06K9/20(2006.01)I |
主分类号 |
G06K9/20(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种文字行提取方法,其特征在于,包括如下步骤:步骤一:对全景二值图像中的各连通域进行统计,得到字符宽度和字符高度,根据字符宽度和字符高度对各连通域进行合并,得到第一尺度块并去除高度小于字符高度二分之一的第一尺度块;步骤二:将去除高度小于字符高度二分之一的第一尺度块后得到的第一尺度块进行排序,得到各第一尺度块间的参考水平间距,根据参考水平间距将各第一尺度块进行合并得到第二尺度块;步骤三:将得到的第二尺度块进行排序,得到各第二尺度块间的第二参考水平间距,根据第二参考水平间距将各第二尺度块进行合并得到第三尺度块;步骤四:将得到的第三尺度块进行排序,排序后将第三尺度块左右两端既定数目的第一尺度块作延长线,根据延长线将各第三尺度块合并为文字行,并将高度小于字符高度二分之一的第一尺度块添加至文字行。 |
地址 |
100193 北京市海淀区东北旺西路8号5号楼三层 |