发明名称 从可移植电子文档中提取字符外接矩形的设备和方法
摘要 本发明提供一种从可移植电子文档中提取字符外接矩形的设备,包括:文本段显示命令提取装置,对于可移植电子文档中的页,针对该页中的文本段,从该页的内容流中提取该文本段的文本段显示命令;字体信息提取装置,对于所提取的文本段显示命令,从该页的资源中提取与该文本段对应的字体信息;尺寸信息提取装置,对于所述文本段中的字符,提取该字符的字符尺寸信息;以及外接矩形计算装置,对于所述文本段中的字符,计算该字符的外接矩形。本发明还提供一种从可移植电子文档中提取字符外接矩形的方法。
申请公布号 CN102081736B 申请公布日期 2014.11.26
申请号 CN200910249848.7 申请日期 2009.11.27
申请人 株式会社理光 发明人 杜成;徐文晖;长谷川史裕;井上浩一
分类号 G06K9/20(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 北京市柳沈律师事务所 11105 代理人 黄小临
主权项 一种从可移植电子文档中提取字符外接矩形的设备,包括:文本段显示命令提取装置,对于可移植电子文档中的页,针对该页中的文本段,从该页的内容流中提取该文本段的文本段显示命令;字体信息提取装置,对于所提取的文本段显示命令,从该页的资源中提取与该文本段对应的字体信息;尺寸信息提取装置,对于所述文本段中的字符,提取该字符的字符尺寸信息;以及外接矩形计算装置,对于所述文本段中的字符,计算在PDF页面空间而非字形空间中的该字符的外接矩形,其中,所述尺寸信息提取装置包括:字体尺寸提取装置,获取与所提取的字体信息对应的字体尺寸信息;字符解码装置,根据所述文本段的字体信息,对文本段显示命令中的字符进行解码;以及字符尺寸提取装置,根据所解码的字符的名称,从字体尺寸信息中提取该字符的字符尺寸信息,其中,所述字体尺寸提取装置包括:字体类型提取装置,从字体信息中提取字体类型;字体尺寸信息提取装置,如果该字体类型通过可移植电子文档的命令描述,则从字体信息的字符流中获取字体尺寸信息,如果该字体类型不通过可移植电子文档的命令描述,则通过外部字体尺寸文件,获取与该字体类型相对应的字体尺寸信息,其中,所述字体尺寸信息提取装置包括:字符流解码装置,在该字体类型通过可移植电子文档的命令描述的情况下,获取该字体类型的每个字符流,根据字符流所采用的编码方式对该字符流解码;添加装置,如果所解码的字符流中第一个命令是字符尺寸设置命令,则从该字符尺寸设置命令中获取字符尺寸信息来添加到字体尺寸信息中,如果所解码的字符流中第一个命令不是字符尺寸设置命令,则顺序执行字符流中的每个命令以实现对字符的栅格化,根据栅格化后的位图来获取字符尺寸信息,添加该字符尺寸信息到字体尺寸信息,其中,所述外接矩形计算装置包括:起始位置计算装置,计算该字符的起始位置坐标;以及顶点坐标计算装置,根据该字符的起始位置坐标、字符尺寸信息以及字形空间到PDF页面空间在横和竖方向的放缩比例和/或文本段旋转角度和页面旋转角度,计算在PDF页面空间而非字形空间中的字符外接矩形的顶点坐标。
地址 日本东京都