主权项 |
一种用于对表示包含文本区域的文档的二值图像进行压缩的方法,所述方法包括:(a)将所述文本区域分割为多个符号图像,每个符号图像表示文本的符号,每个符号图像以具有位置和大小的边界框来界定;(b)将在步骤(a)中所获得的每个符号图像分类为多个类别之一,每个类别由模板图像和类别索引来表示,对于所分类的每个符号图像,步骤(b)包括:(b1)将所述符号图像与每个模板图像进行比较以确定它们是否彼此匹配,包括将所述符号图像的多个特征与所述模板图像的相应多个特征进行比较,所述多个特征包括密度统计特征、侧面轮廓特征、拓扑统计特征及形状特征;(b2)如果在步骤(b1)中找到匹配,则与所分类的符号图像相关联地记录与所匹配的模板对应的类别索引;以及(b3)如果在步骤(b1)中没有找到匹配,则通过使用所分类的符号图像的图像作为新类别的模板图像并为所述新类别分配类别索引,来将所述新类别添加到所述多个类别,并且与所分类的符号图像相关联地记录所述类别索引;(c)将每个类别的模板图像的大小调整为最终大小;以及(d)将所述多个类别中的每个类别的经大小调整后的模板图像连同其类别索引、在步骤(a)中所获得的每个符号图像的边界框的位置和大小、以及在步骤(b2)或(b3)中所获得的每个符号图像的类别索引存储为压缩的图像数据。 |