发明名称 印刷/手写中英文表单辨识方法
摘要 一个OCR装置包含印刷英数字辨识模组、手写英数字辨识模组、印刷中文辨识模组、以及手写中文辨识模组。本发明之一较佳实施例还包含了制式表单学模组以"学"表单内各种资讯的位置。本发明亦提出一个可抽取印刷及手写资料﹐并储存该资料于包含印刷及手写中英文的表单影像内的OCR装置。当有需要时﹐本发明采用一瀑布式的人工更正程序﹐其中系按照更正工作的复杂度而排列不同的更正程序。也就是说﹐较不"昴贵"(亦即﹐较不费时)的更正方法如同过滤器般先于较"昴贵"的更正方法而执行。在此较佳实施例中﹐先做字元更正﹐再做栏位更正﹐最后是整张表单更正。
申请公布号 TW294804 申请公布日期 1997.01.01
申请号 TW084111519 申请日期 1995.10.30
申请人 财团法人工业技术研究院 发明人 周开祥;林文雯;徐英士;屠乐梃;陈谋琰
分类号 G06K9/74 主分类号 G06K9/74
代理机构 代理人
主权项 1. 一种表单辨识之方法,包含如下步骤:(a) 定义含有资讯的栏位之边界;(b) 定义该栏位内资讯的性质;(c) 定义该栏位内字元的属性;及(d) 定义该栏位内字元预期会填入的位置。2. 如申请专利范围第1项所述之方法,进一步包括定义数个定位符号的位置。3. 如申请专利范围第1项所述之方法,进一步包括定义栏位边界前,用光学扫瞄器扫瞄一张空白表单。4. 如申请专利范围第1项所述之方法,其中步骤(a)-(d)对数个内含资讯之栏位重覆实施。5. 如申请专利范围第1项所述之方法,在定义资讯性质的步骤中,再包括定义资讯的型态。6. 如申请专利范围第1项所述之方法,在定义特性的步骤中,再包括定义栏位内包含印刷或手写的字元。7.一种自表单电子影像中抽取字元的方法,包括:(a) 决定该电子影像是否倾斜或位移;(b) 自该电子影像中抽取一栏位;(c) 校正该抽取栏位的座标;(d) 自校正后的栏位中抽取至少一个文字行;(e) 校正该文字行的座标;(f) 自校正的文字行中抽取至少一个字元;及(g) 校正抽取字元的座标。8. 如申请专利范围第7项所述之方法,在抽取栏位之前,定义该栏位。9. 如申请专利范围第8项所述之方法,在定义栏位的步骤中,更包括下列步骤:(a) 决定该栏位的边界;(b) 决定栏位中字元预期出现的位置;(c) 选择栏位的性质;及(d) 选择栏位的属性。10. 如申请专利范围第7项所述之方法,在决定表单是否倾斜或偏移时,更包括下列步骤:(a) 决定该电子影像的边界;及(b) 根据该电子影像的边界,决定待抽取栏位的位置。11. 如申请专利范围第7项所述之方法,在校正抽取栏位座标的步骤中,进一步包括将倾斜与偏移投影在抽取栏位的步骤。12. 如申请专利范围第7项所述之方法,在抽取至少一个文字行的步骤中进一步包含下列步骤:(a) 参考一资料库以决定文字行的位置;及(b) 利用抽取栏位内字元的水平投影与其行位置,调整栏位内文字行的位置。13. 如申请专利范围第7项所述之方法,在校正抽取文字行的座标时更进一步包含下列步骤:(a) 将字元的水平投影投射于抽取栏位及行位置,以调整栏位内的文字行;(b) 决定文字行中的字元是否超过该抽取栏位的底部或顶部;及(c) 若发现该文字行中的字元超过该抽取栏位的底部或顶部,则将该文字行再产生文字行。14. 如申请专利范围第7项所述之方法,在字元抽取方法中进一步包含下列步骤:(a) 参考一个资料库决定字元为印刷或手写;(b) 抽取字元;(c) 将抽出之手写字元送入手写字元辨识模组;及(d) 将抽出之印刷字元送入印刷字元辨识模组。15.如申请专利范围第14项所述之方法,在抽取字元的步骤中进一步包括:(a) 决定一列字元的垂直投影;及(b) 分隔各字元。16. 如申请专利范围第14项所述之方法,在传送抽取的手写字元步骤中进一步包括:(a) 查询一资料库以决定手写字元预期为英数字或中文;(b) 将手写英数字元传送至手写英数字元辨识模组;及(c) 将手写中文传送至手写中文字元辨识模组。17.如申请专利范围第7项所述之方法,在校正抽取字元座标的步骤中进一步包括依水平座标排列字元。18. 如申请专利范围第7项所述之方法,进一步包括下列步骤:(a) 对抽取字元执行辨识程序;及(b) 对辨识过的字元进行辨识后处理程序。19. 如申请专利范围第7项所述之方法,在辨识后处理步骤中,包括:(a) 在监视器上显示辨识处理过的字元;及(b) 如有需要,更正任何无法辨识或误认的字元。20. 一种验证光学扫瞄资讯正确性的方法,包括下列步骤:(a) 将辨识后的表单资讯区分为;() 完全正确;() 人工更正;及() 整张拒认;(b) 储存完全正确的表单资讯;(c) 在需要人工更正的表单资讯中,决定是否有拒认字元;(d) 如有拒认字元,人工更正该拒认字元;(e) 进行第一次栏位后处理检查;(f) 如果更正后的字元所属栏位通过后处理检查,则储存该些字元资讯;(g) 对未通过第一次栏位后处理检查且栏内无拒认字元的栏位进行栏位更正;(h) 对更正后的栏位资讯进第二次栏位后处理检查;(i) 如果更正后的栏位资讯通过第二次栏位后处理检查,则储存该栏位资讯;(j) 对未通过第二次栏位后处理检查且被归为整张拒认的表单执行整张更正;(k) 对整张更正后的表单资讯进行系统后处理检查;( 储存通过此第三个系统后处理检查的表单资讯;及( 整张拒绝接受未能通过第三个系统后处理检查的表单资讯。21. 如申请专利范围第20项所述之方法,其中扫瞄资料包括多张表单,而人工更正拒认字元步骤中更正的字元可来自该多张表单。22. 如申请专利范围第20项所述之方法,在人工更正拒认字元步骤中进一步包括下列步骤:(a) 在监视器上的第一个部分显示拒认字元影像;及(b) 在监视器的第二个部分提供可输入正确字元的位置。23. 一个人工更正光学扫瞄表单的方法,包括将人工更正程序依工作复杂度排列的步骤;在此步骤中较简单的更正程序被当做如过滤器一般,安排在工作复杂度较高的更正程序之前。24. 如申请专利范围第23项所述之方法,其中有许多栏位的多张表单以下列的步骤扫瞄及人工更正;(a) 人工更正未通过第一次栏位后处理检查的表单栏位内的字元;(b) 人工更正未通过第二次栏位后处理检查的表单栏位资料;及(c) 整张更正未通过第三个栏位后处理检查的表单资料。图示简单说明:图1.显示一暗格表单范例。图2.为图1表单之部分放大检视。图3.为一OCR装置的元件方块图。图4.为本发明中表单学习过程之流程图。图5.为本发明系统的方块图。图6.为本发明中瀑布式更正程序的流程图。图7.为字元更正时的一个描述画面。
地址 新竹县竹东镇中兴路四段一九五号