发明名称 印刷体框字处理法
摘要
申请公布号 TW104060 申请公布日期 1988.10.01
申请号 TW077100131 申请日期 1988.01.09
申请人 财团法人工业技术研究院 发明人 林文雯;黄雅轩
分类号 G06F15/62 主分类号 G06F15/62
代理机构 代理人
主权项 1.一种印刷体框字处理方法,包括:(1)一次扫描区块标签法:能将读入电脑的文件影像资料,区分为文字列、影像区像、图形区块;(a)CRLC(Constrained RunLength Code)转换:将bitmap影像转换成Run Length Code;(b)区块之分离:以标签(Lableing)方法,连接相对位置具有邻近关系的CRLC,得一区块的位置;(c)影像抽取部份:根据已独立区块所记录的CRLC,推算原bitmap影像中各对应(X.Y)位置而抽取一区块的影像;(d)分析区块影像种类:以区块高度及平均Run Leengtb値分辨出区块的性质。(2>结构化切字:将前述之文字列进一步切出中、英文字及标点符号,以提供光学文字辨识系统(Optical CharacterRecognition;OCR)来辨识出文字的字码;其步骤系包括:(a)找出矩形:框出此列文字所有左右分离的矩形;(b)计算文字列高度:以高度得分法,求出中文字高度;(c)优先切出:按属性切出中文字及标点符号;(d)右向切出:以较宽条件找出所有已被切出矩形的右边中文字矩形;(e)左向切出:与右向切出动作相同,但是对象是右边矩形已切出而本身矩形尚未被切出者;(f)端点切出.:对最左及最右端点特殊处理,以正确切出所有中文字。图式简单说明:图一是一张普通文件图形。图二为经本发明处理后之结果。图三为一次扫描区块标签法的处理流程图。图四为区块特性分布情形。图五为切字步骤的流程图。图六为矩形端点在坐标轴上之投影。图七即表示某单一矩形的高度得分情形。图八为优先切出所处理的矩形与属性相对应的情形。图九为一列文字切字步骤的结果。
地址 新竹县竹东镇中兴路四段一九五号