发明名称 文书之编排解析方法及系统
摘要 本发明之课题,系提供一种利用对于如表格等具有特定编排的文书可适用的新颖格式,可有效地处理文书的文书之编排解析系统。本发明系关于一种藉由参照记忆于记忆装置中的格式资料,按照有多数单元格的规则所配置的文书之编排解析方法。首先,从文书之影像资料抽出多数单元格,同时求出单元格间的邻接关系。其次,将在文书中的单元格间的邻接关系和格式资料规定的单元格间的邻接关系比较,藉由特定在文书中的单元格对应的格式资料规定的单元格,以特定文书中的资讯配置。根据这种编排解析结果,特定存在于单元格中的资讯型式之后,使用文字认识技术进行资讯读取,所以可有效地处理表格。
申请公布号 TW330995 申请公布日期 1998.05.01
申请号 TW085115148 申请日期 1996.12.07
申请人 万国商业机器公司 发明人 平山唯树
分类号 G06F17/60 主分类号 G06F17/60
代理机构 代理人 陈长文 台北巿敦化北路二○一号七楼
主权项 1.一种方法,于藉由参照记忆于记忆装置中的格式资料,按照有多数单元格的规则所配置的文书之编排解析方法中,其特征在于:具有从前述文书之影像资料抽出多数单元格,同时求出该单元格间的邻接关系之步骤;及将在前述文书中的前述单元格间的邻接关系和前述格式资料规定的单元格间的邻接关系比较,藉由特定在前述文书中的单元格对应的前述格式资料规定的单元格,以特定前述文书中的资讯配置之步骤者。2.根据申请专利范围第1项之方法,其中再有预先准备格式资料之步骤,该格式资料系规定存在于各单元格的资讯型式,同时规定该单元格间的邻接关系。3.根据申请专利范围第1项之方法,其中再有按照前述所特定的资讯配置,认识前述文书中所含有的资讯之步骤。4.根据申请专利范围第1项之方法,其中前述邻接关系于1个单元格和其他单元格邻接时,使用这些单元格共有的格线表现。5.根据申请专利范围第2项之方法,其中准备上述格式资料之步骤具有准备至少1个样本之步骤;前述至少1个样本各自抽出多数单元格之步骤;前述至少1个样本各自求出前述多数单元格间的邻接关系之步骤;及作成格式资料之步骤,该格式资料系使前述多数单元格与顶点对应,同时前述邻接关系之中使与前述样本共同者与边对应。6.根据申请专利范围第1项之方法,其中用前述边连结前述格式资料中的全部前述顶点。7.根据申请专利范围第1项之方法,其中藉由用格线集合表现前述格式资料中的单元格,根据格线的连接关系记述前述格式资料。8.根据申请专利范围第7项之方法,其中前述格式资料再规定格线间的依存关系。9.一种系统,于藉由参照记忆于记忆装置中的格式资料,解析按照有多数单元格的规则所配置的文书之编排之系统中,其特征在于:具有记忆格式资料,该格式资料系规定存在于各单元格的资讯型式,同时规定该单元格间的邻接关系之机构;抽出前述文书之影像资料之机构;从前述文书之影像资料抽出多数单元格,同时求出该单元格间的邻接关系之机构;将在前述文书中的前述单元格间的邻接关系和前述格式资料规定的前述单元格间的邻接关系比较,藉由特定在前述文书中的单元格对应的前述格式资料规定的单元格,以特定前述文书中的资讯配置之机构;及按照前述所特定的资讯配置,认识前述文书中所含有的资讯之机构者。10.根据申请专利范围第9项之系统,其中再有根据至少1个样本中的单元格的邻接关系生成格式资料之机构。11.根据申请专利范围第10项之系统,其中生成上述格式资料之机构具有以下机能:根据新样本更新现有的格式资料。12.一种方法,系指作成解析单元格配置不同的多数文书之编排的格式资料之方法,其特征在于:具有准备至少1个按照有多数单元格的规则所配置的样本之步骤;前述至少1个样本的各自抽出多数单元格之步骤;前述至少1个样本的各自求出前述多数单元格间的邻接关系之步骤;及生成格式资料之步骤,该格式资料系使前述多数单元格与顶点对应,同时前述邻接关系之中使与前述样本共同者与边对应者。13.一种方法,于作成解析单元格配置不同的多数文书之编排的格式资料之方法中,其特征在于:具有准备至少1个按照有多数单元格的规则所配置的样本之步骤;前述至少1个样本的各自抽出多数单元格,求出该多数单元格间的邻接关系之步骤;生成低位格式资料之步骤,该低位格式资料系前述至少1个样本的各自使前述多数单元格与顶点对应,同时使前述邻接关系与边对应;及生成格式资料之步骤,该格式资料系使前述多数单元格与顶点对应,同时使与各前述低位格式资料共同的前述邻接关系与边对应者。14.根据申请专利范围第12或13项之方法,其中前述邻接关系于1个单元格和其他单元格邻接时,使用这些单元格共有的格线表现。15.根据申请专利范围第12或13项之方法,其中再有验证是否用前述边连结前述格式资料中的全部前述顶点之步骤。16.根据申请专利范围第12或13项之方法,其中前述格式资料中的单元格表现作为格线的集合。图示简单说明:第一图(A)至第一图(C)为显示具体表格样本的图。第二图为显示生成本实施例中的格式之程序的流程图。第三图(a)至第三图(c)为说明单元格间的邻接关系的图。第四图(a)至第四图(c)为滙集样本中的全部单元格的邻接关系的表。第五图为显示以第四图之低位格式为基础所生成的高位格式的表。第六图为显示第五图之高位格式连结性的无向图。第七图为显示第五图之高位格式的图。第八图为用格线表现第七图之图的图。第九图为将第五图之格式的表变换成格线表现的表。第十图为显示格线的依存关系的表。第十一图(A)至第十一图(C)为说明所抽出的格线刮擦掉时的处理的图。第十二图为表格处理系统的方块图。第十三图为显示表格处理程序的流程图。
地址 美国