发明名称 一种基于概率统计的中文碎片自适应恢复方法
摘要 本发明公开了一种基于概率统计的中文碎片自适应恢复方法,进行碎片扫描,得到图像扫描结果h(x,y),对图像h(x,y)在计算机中进行处理后,上形成三色图像S(x,y);对所有三色图像S(x,y)进行叠加运算,形成上下空白中间是字体的单字块,并将分割出来的字块图进行居中处理;对居中处理后的所有字块图分类;对分类后的字块图应用概率统计模型进行组合,得到拼接出来的图形,在对拼接出来图像进行校正,最终经过校正后的图像就是恢复图像,从而实现了碎纸机中文碎片的恢复。本发明的有益效果是能够使用该算法快速准确地恢复出碎纸机破碎的中文文档,能够有效提高操作人员的便利性以及降低计算机的运算复杂度。
申请公布号 CN103295019B 申请公布日期 2016.06.01
申请号 CN201310190058.2 申请日期 2013.05.21
申请人 西安理工大学 发明人 邢楠;周一;张婧;李桥玮;朱虹;王馨梅;王栋
分类号 G06K9/60(2006.01)I 主分类号 G06K9/60(2006.01)I
代理机构 西安弘理专利事务所 61214 代理人 李娜
主权项 一种基于概率统计的中文碎片自适应恢复方法,其特征在于,按照以下步骤进行:步骤1:数据扫描:用一张单色的纸板作为扫描仪的扫描背景,将碎纸机粉碎的条状中文文档碎片展平放置在扫描背景上,各碎片垂直投影上无重合,对碎纸进行扫描,得到数字图像的二维矩阵h(x,y);步骤2:数据提取:将步骤1中得到的图像的二维矩阵h(x,y)通过计算机得到其所对应的R,G,B三个通道的灰度图,对灰度图的每一列数据求取算数平均值,设阈值TH=150,若该算数平均值大于TH,则认为存在碎片,若该算数平均值小于或等于TH,则认为是背景,从而得到碎片的灰度图像矩阵g(x,y),对灰度图像矩阵g(x,y)进行二值化处理,将碎片和背景有效地分开,得到每个碎片的二值化图像矩阵f(x,y),将二值化图像矩阵f(x,y)与灰度图像矩阵g(x,y)进行逻辑“与”运算得到图像矩阵e(x,y),将图像矩阵e(x,y)旋转,使之成为与水平方向垂直的图像矩阵e'(x,y),对e'(x,y)进行二值化处理得到图像矩阵l(x,y),设置与图像矩阵l(x,y)同尺寸的背景图b(x,y),背景图b(x,y)为灰色,将图像矩阵l(x,y)的内容与背景图b(x,y)进行相加上形成每个碎片的三色图像矩阵S(x,y);步骤3:数据预处理:对通过步骤2得到的各个碎片对应的三色图像矩阵S(x,y)利用公式A(x,y)=S<sub>1</sub>(x,y)+S<sub>2</sub>(x,y)+…+S<sub>n</sub>(x,y)进行叠加运算,其中,S<sub>1</sub>(x,y),S<sub>2</sub>(x,y),…,S<sub>n</sub>(x,y)表示所有的碎片图像,下标n指条状碎片图的张数,之后对图像矩阵A(x,y)进行水平投影,根据水平投影判断出字块的起始位置和字块的高度,以每两个字块之间的空白处的中心线为基准,将所有字块分割出来形成上下空白中间是字体的单字块,并将分割出来的字块图进行居中处理;步骤4:数据分类:对步骤3居中处理后的所有字块图按照其布局特点进行分类;步骤5:数据拼接:对步骤4中分类后的字块图用概率统计模型进行组合,得到拼接出来的图像,再对拼接出来图像进行校正,得到恢复图像。
地址 710048 陕西省西安市金花南路5号