发明名称 高压缩可回流文件的建立和绘制方法
摘要 本发明涉及一种高压缩可回流文件的建立和绘制方法,通过对文件几何区域的位置信息和类型信息分析,生成高压缩版式文件及版式文档结构描述信息;针对版式数字书籍通过将页面图像按照压缩特性分成不同的层,使用基于Mixed Raster Content技术进行压缩;针对文字格式的版式数字书籍,也可使用基于更高压缩率的文字格式版式书籍压缩技术进行压缩;针对使用标记语言描述的版式文档页面描述信息和逻辑结构描述信息,使用标记语言感知压缩技术进行压缩;大幅提高压缩效率;并提出了版式文档页面图像展开和版式文档结构描述信息展开的并行处理方法;和按页和按照文档逻辑结构进行可回流两种绘制方式,保证在不同尺寸的输出媒体上根据输出媒体的尺寸来进行自适应绘制。
申请公布号 CN103853849B 申请公布日期 2017.01.11
申请号 CN201410121306.2 申请日期 2014.03.28
申请人 龚如宾 发明人 龚如宾
分类号 G06F17/30(2006.01)I;G06K9/20(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海申汇专利代理有限公司 31001 代理人 吴宝根
主权项 一种高压缩可回流文件的建立和绘制方法,其特征在于,包括如下具体步骤:第一步:高压缩可回流文件的建立:1)取得版式文档的页面图像:通过成像设备、存储服务器、软件工具读入版式数字书籍文档,并计算得到页面图像;2)使用几何版面分析技术,得到版式文档页面中的几何区域的位置和几何区域的类型;3)进行版式文档结构描述压缩数据生成和版式文档压缩处理:版式文档结构描述压缩数据生成:A:利用版面理解和版面识别技术,根据显示特性,页面几何区域分类为不可回流区域、孤立文字区域、逻辑句区域和段落区域四种几何区域类型;并根据阅读规则确定页面内几何区域间的阅读优先次序;计算逻辑句区域和段落区域包含的文本行/列区域,确定同一逻辑句区域和段落区域内文本行/列区域间的阅读优先次序;计算文本行/列区域中包含的可回流单元, 确定同一文本行/列区域内可回流单元间的阅读优先次序;B:利用版面理解和版面识别技术,得到版式文档的逻辑结构;并确定几何区域和逻辑区域间的包含关系;确定逻辑区域和逻辑区域间的包含关系;确定逻辑区域间的阅读优先次序;确定同一逻辑区域内不同几何区域间的阅读优先次序;C:建立版式文档结构描述信息;D:对版式文档结构描述信息进行压缩,生成版式文档结构描述压缩数据;版式文档压缩处理:E:根据压缩特性,将几何区域类型分类成前景区域类型和背景区域类型;F:根据E中几何区域的类型,把版式文档页面图像分离为2值文字图形层图像、颜色层图像和背景层图像; G:对2值文字图形层图像﹑颜色层和背景层使用各自适合的算法进行压缩,并对压缩数据进行合并;4)将步骤3)所得的版式文档的结构描述压缩数据和版式文档压缩数据合并;第二步:高压缩可回流数据的绘制:5)通过网络或者存储介质得到高压缩可回流数据;6)分析高压缩可回流数据的格式,对结构描述压缩数据进行解压,得到解压后的结构描述信息;7)分析高压缩可回流数据的格式,对版式文档压缩数据进行解压,解析版面文档得到页面图像数据;8)读取当前阅读位置信息;根据此阅读位置信息,获取结构描述信息中对应于此阅读位置的区域位置信息;根据区域位置信息中包含的当前位置几何区域的包围框信息,从页面图像数据中获取区域图像数据;根据区域位置信息中包含的当前位置几何区域的类型信息和绘制参数,对区域图像数据在输出媒体上进行不同的绘制处理;9)如果绘制还没有完成,则根据阅读优先次序,设置下一阅读位置对应的区域位置信息,跳转到步骤8)。
地址 200129 上海市浦东新区五莲路1769弄14号602室