发明名称 基于形态学与积分投影的印刷体维吾尔文文档切分方法
摘要 本发明公开了一种基于形态学与积分投影的印刷体维吾尔文文档切分方法,主要解决现有切分方法中,获取行文档图像时灵活性限制问题,获取单字符图像时<img file="DDA0001083853010000011.GIF" wi="93" he="62" />这种字符的漏切分问题。其步骤为:(1)输入一幅二值图像;(2)获取行文档图像;(2)获取子单词图像;(4)获取连体段图像;(5)获得只有主体笔画部分的连体段图像;(6)确定只有主体笔画部分连体段图像的基线域;(7)获取单字符图像。本发明相对于现有的印刷体维吾尔文文档切分方法,获取行文档图像时不设置阈值而更灵活,避免了<img file="DDA0001083853010000012.GIF" wi="94" he="55" />这种字符的漏切分问题,可以提高印刷体维吾尔文文档切分准确率。
申请公布号 CN106372639A 申请公布日期 2017.02.01
申请号 CN201610693442.8 申请日期 2016.08.19
申请人 西安电子科技大学 发明人 卢朝阳;王小弟;李静;郎潇;艾合买提·阿卜力皮孜
分类号 G06K9/34(2006.01)I 主分类号 G06K9/34(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 田文英;王品华
主权项 一种基于形态学与积分投影的印刷体维吾尔文文档切分方法,包括以下步骤:(1)输入二值图像:输入一幅无噪声非倾斜且其宽度与高度为2362×3327的印刷体维吾尔文文档二值图像;(2)获取行文档图像:(2a)利用形态学膨胀算法,对输入的二值图像进行膨胀处理,得到印刷体维吾尔文文档图像中属于同一文档行的字符相互重叠在一起的一幅膨胀图像;(2b)采用四邻域种子填充连通域算法,提取膨胀图像的每个连通域;(2c)用每个连通域外接矩形的上边作为每幅行文档图像的上边界,下边作为每幅行文档图像的下边界,得到与每个连通域对应的多幅行文档图像;(3)获取子单词图像:(3a)从多幅行文档图像中选取任意一幅行文档图像;(3b)采用四邻域种子填充连通域算法,依次提取所选取的行文档图像中所有的连通域;(3c)从所选取的行文档图像中所有的连通域中选取任意一个连通域,并搜索与所选连通域相邻的最近连通域;(3d)判断最近连通域是否在所选连通域的关联位置,若是,则执行步骤(3e),否则,执行步骤(3f);(3e)将所选连通域和最近连通域,分别作为印刷体维吾尔文中同一个子单词图像的主体笔画部分和附加笔画部分;(3f)将最近连通域单独作为印刷体维吾尔文中的一个子单词图像;(3g)判断所选取的行文档图像中所有的连通域是否选取完,若是,则执行步骤(3h),否则,执行步骤(3c);(3h)得到所选取行文档图像的所有子单词图像;(3i)判断多幅行文档图像中的每一幅行文档图像是否选取完,若是,则执行步骤(3g),否则,执行步骤(3a);(3g)得到多幅行文档图像中的所有子单词图像;(4)获取连体段图像:(4a)从多幅行文档图像中的所有子单词图像中任意选取一幅子单词图像;(4b)按照下式,计算所选子单词图像的纵横比:<maths num="0001"><math><![CDATA[<mrow><mi>r</mi><mi>a</mi><mi>t</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>=</mo><mfrac><mi>w</mi><mi>h</mi></mfrac></mrow>]]></math><img file="FDA0001083850980000021.GIF" wi="222" he="111" /></maths>其中,ration表示所选子单词图像的纵横比,w表示所选子单词图像的宽,h表示所选子单词图像的高;(4c)设定一个阈值T,T=0.72;(4d)判断所选子单词图像的纵横比是否大于等于阈值T,若是,则执行步骤(4e),否则,执行步骤(4f);(4e)将所选子单词图像作为连体段图像;(4f)将所选子单词图像作为独立字符图像;(4g)判断多幅行文档图像中的所有子单词图像是否都选取完,若是,则执行步骤(4h),否则,执行步骤(4a);(4h)得到多幅行文档图像中的所有连体段图像;(5)获取只有主体笔画部分的连体段图像:(5a)从多幅行文档图像中的所有连体段图像中任意选取一幅连体段图像;(5b)消除所选取连体段图像的附加笔画部分,得到只有主体笔画部分的连体段图像;(5c)判断多幅行文档图像中的所有连体段像是否都选取完,若是,则执行步骤(5d),否则,执行步骤(5a);(5d)得到多幅行文档图像中的所有连体段图像中,只有主体笔画部分的连体段图像;(6)确定只有主体笔画部分连体段图像的基线域:(6a)从多幅行文档图像中的所有只有主体笔画部分连体段图像中,选取任意一幅只有主体笔画部分的连体段图像;(6b)提取所选取只有主体笔画部分连体段图像的轮廓,得到所选取的只有主体笔画部分连体段图像的轮廓图像;(6c)按照下式,计算所选取的只有主体笔画部分连体段图像的轮廓图像中每一行对应的水平积分投影:<maths num="0002"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>b</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>h</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001083850980000031.GIF" wi="326" he="134" /></maths>其中,H(i)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行的水平积分投影,i=0,1,...,a,a表示所选取的只有主体笔画部分连体段图像的轮廓图像的总行数,b表示所选取的只有主体笔画部分连体段图像的轮廓图像的总列数,∑表示求和操作,j表示所选取的只有主体笔画部分连体段图像的轮廓图像中的第j列,j=0,1,...b,h(i,j)表示所选取的只有主体笔画部分连体段图像的轮廓图像中第i行第j列的像素值;(6d)将水平积分投影H(i)最大时对应的行,作为所选取的只有主体笔画部分连体段图像基线域的上边界b<sub>start</sub>,将水平积分投影H(i)次大时对应的行,作为所选取的只有主体笔画部分连体段图像基线域的下边界b<sub>end</sub>;(6e)按照下式,计算所选取的只有主体笔画部分连体段图像的基线域高度:l=b<sub>end</sub>‑b<sub>start</sub>其中,l表示所选取的只有主体笔画部分连体段图像的基线域高度,b<sub>start</sub>表示所选取的只有主体笔画部分连体段图像基线域的上边界,b<sub>end</sub>表示所选取的只有主体笔画部分连体段图像基线域的下边界;(6e)判断所有的只有主体笔画部分连体段图像是否都选取完,若是,则执行步骤(6f),否则,执行步骤(6a);(6f)得到所有的只有主体笔画部分连体段图像的基线域的高度;(7)获取单字符图像:(7a)从所有的只有主体笔画部分连体段图像中,任意选取一幅只有主体笔画部分连体段图像;(7b)分别将所选取的只有主体笔画部分连体段图像的基线域、基线域下边界b<sub>end</sub>以下连续的四分之三部分置白;(7c)利用垂直积分投影公式,计算置白后图像中每一列对应的垂直积分投影;(7d)从置白后图像中寻找满足下式的所有的列,作为切分线:V(q‑1)≠0V(q)=0其中,V(q‑1)表示置白后图像中第q‑1列的垂直积分投影,V(q)表示置白后图像中第q列的垂直积分投影;(7e)将两个相邻的切分线之间的图像作为单字符图像,保存到计算机中;(7f)判断所有的只有主体笔画部分连体段图像是否都选取完,若是,则执行步骤(7g),否则,执行步骤(7a);(7g)得到多幅行文档图像中的中的所有单字符图像。
地址 710071 陕西省西安市太白南路2号