发明名称 智慧型公文文件处理系统
摘要 一种智慧型公文文件处理系统,包含有系统控制单元、资料输入单元、前处理单元、表格处理单元、文字辨认单元及输出单元;该系统系将公文文件,以结合文件表格分析及表格辨认技术之电脑自动化处理,将公文文件分离为表格档及文字档,除可辅助实体公文收文之登录及表格制作外,并可与一般公文管理系统相结合,以利日后的文件之快速调阅及查询,甚至线上之传送,而达到公文电脑化及办公室自动化之目标。
申请公布号 TW275116 申请公布日期 1996.05.01
申请号 TW084104539 申请日期 1995.05.08
申请人 中华电信股份有限公司电信研究所 发明人 徐克华;张光耀;张保忠;游世贤;刘灿雄;蔡玉娟;郑乃仁
分类号 G06F15/21 主分类号 G06F15/21
代理机构 代理人 陈逸南 台北巿复兴南路一段二三七号十二楼之一
主权项 1. 一种智慧型公文文件处理系统,该系统包含:一系统控制单元,此单元为系统中各单元之整合及资料传递的桥梁,其主要功能有四: 将资料输入单元传来之文件影像的杂讯滤掉,并将其转换成连结元素; 将前处理单元之连结元素资料,送至表格处理单元; 将表格处理单元所产生的文字影像,送至文字辨认单元; 将表格处理单元产生的表格档及文字辨认单元所产生的文字档(text file)送至输出单元显示或储存;一资料输入单元,该单元主要是将文件转换为数位影像,以供前处理单元处理;一前处理单元,系将资料输入单元传来的文件影像内之杂讯去除,并将文件影像转换成连结元素;一表格处理单元,系以前处理单元所传来的连结元素为基础,抽取表格之特征,并与既存于电脑内表格特征资料库的所有特征値做逐一比对,以确定该公文表格是否属于新表格,若是,则输出其表格特征档及表格图形档至输出单元,并将内文的文字区块传送至文字辨认单元,若不是,则仅将内文的文字区块传送至文字辨认单元;一文字辨认单元,系将表格处理单元传来的栏位内文字区块,加以辨认,并将结果做适当的输送或转换;及一输出单元,主要是接受表格处理单元传来之表格图形档及文字辨认单元传来之文字档,加以储存,并将表格图形档和文字档加以组合,转换成一公文文件实体,以供列印或显示。2. 如申请专利范围第1项所述之智慧型公文文件处理系统,其中之前处理单元包括:一杂讯消除单元,该单元是利用影像处理方法将white—noise消除;一跑长码单元,该单元则是将数位影像逐行(水平扫描线)根据每个像点之前后像点値,转换成连续像点,并记录其属性及其连续长度,以供区块成长之用;及一区块成长单元,该单元系逐行的将跑长码结合成连结元素。3. 如申请专利范围第1项所述之智慧型公文文件处理系统,其中之表格处理单元包括:一表格特征抽取单元,该单元系将表格内之交叉点抽取,并记录其形状及个数,同时针对表格内之每一水平或垂直线段,记录其形状及其座标;一栏位特征侦测单元该单元,该单元则是在侦测出该公文表格的栏位位置、大小及形状,并记录之,一栏位内文字合并单元,该单元由栏位特征侦测单元而得知各个栏位之位置、大小及形状,但并不知各个栏位之主题,所以栏位内文字合并单元即是在补充其不足之资讯;一表格特征辨认单元,该单元系将输入之公文表格特征値和既存于电脑表格特征资料库表格特征档,做逐一比对,并决定该输入之公文表格是否属于既存于电脑的公文表格之一;及一.内文文字合并单元,该单元系将内文的连结元素合并成文字区块。图示简单说明:图一为本发明之架构图;图二为前处理单元之功能流程图;图三为区块成长之范例;图四为原始公文文件样本;图五为前处理单元输出之连结元素样本;图六为表格处理单元之功能流程图;
地址 桃园县杨梅镇民族路三段五五一巷十二号