发明名称 通用表格识别方法
摘要 本发明公开了一种通用表格识别方法,包括以下步骤:用扫描仪将各种样表扫描成图像文件存储在计算机硬盘中;制作表格模式文件,装载计算机硬盘上存储的样表图像文件,制作各种类型的表格模式,并以mod格式保存表格模式文件;用扫描仪将填涂完成后的每一份统计用表扫描成图像文件存储在计算机硬盘中;表格识别及识别结果保存。本发明的积极效果是:利用扫描仪和计算机,能快速、准确地对各种填涂表格进行识别,并将识别结果保存在计算机中,供用户随时、方便地作进一步的统计分析和处理。集实用性和灵活性于一体,大大简化人们的文档处理手段,提高表格分析的效率,具有非常广阔的应用前景。
申请公布号 CN101923643A 申请公布日期 2010.12.22
申请号 CN201010250685.7 申请日期 2010.08.11
申请人 中科院成都信息技术有限公司 发明人 彭程;史志明;崔喆;官磊;张宇;钟诚;柳永强
分类号 G06K9/20(2006.01)I;G06F17/21(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 成都九鼎天元知识产权代理有限公司 51214 代理人 邓世燕
主权项 一种通用表格识别方法,其特征在于:包括以下步骤:第一步,用扫描仪将各种样表扫描成图像文件存储在计算机硬盘中;第二步,制作表格模式文件:装载计算机硬盘上存储的样表图像文件,制作各种类型的表格模式,并以mod格式保存表格模式文件:首先装载计算机硬盘上存储的样表图像文件,并将图像在界面上显示出来;图像装载完成后,通过软件使计算机自动生成与装载图像文件数量一致的页面树形列表,使得点击树形列表的每一个页面项即可以显示该页面的图像信息;然后采用如下步骤制作各页面的表格模式:第一个步骤是指定定位块,具体方法是使用框选工具在表格图像中框选任意的文字,选定以后通过软件将被框选的图像内容剪切、显示出来,并提示用户录入该表格的类型标示名称;第二个步骤是指定该表格需要识别的区域,运用标记块自动搜索技术,自动搜索样表中指定区域内所有的标记块,获取每一个标记块的关键信息,并与基准定位点坐标通过坐标换算得到每一目标标记块的相对坐标,以上这些信息都作为模式信息存入表格模式文件中;表格模式制作完成以后,通过软件使计算机自动生成对应的、用于记录表格识别结果的Excel文档;第三步,用扫描仪将填涂完成后的每一份统计用表扫描成图像文件存储在计算机硬盘中;第四步,表格识别及识别结果保存:首先需要装载第二步制作的表格模式文件和该模式文件对应的Excel文档,然后通过识别向导从计算机磁盘文件中选择需要进行识别的表格图像文件列表,对列表中的每一份待识别表格图像文件进行识别处理,并将识别结果以字符串形式输入Excel文档表格中。
地址 610041 四川省成都市人民南路四段9号