发明名称 一种线上手写中文字辨识系统之参考资料库之储存方法
摘要 本发明揭露一种线上中文辨识系统用的阶层式架构的参考资料库之储存方法。这个阶层式资料库可包括:(1)文字描述资料库;(2)字根之笔画对应规则资料库; (3) 字形结构资料库;(4)字根标准图样资料库:(5) 字根之笔画空间关系资料库。文字描述资料库储存构字字根的规则码与使用到之字形结构。字根之笔画对应规则资料库储存上述规则码所表示之所有字根的笔画对应规则。字形结构资料库储存较佳实施例中,可有208种字形结构之字形合成规则,字形结构拆解规则,和字形结构中之字根间之空间关系。字根标准图样资料库储存构成字根图样之笔画线段之极点座标。而字根之笔画空间关系资料库储存每一个字根之笔画空间关系。当一个输入字迹和一个样版字形比对时,该输入字便根据该样版字字形结构拆解规则拆解成字根。在文字描述资料库中,储存了样版字之构字字根规则码及字形结构。利用样版字之构字字根规则码可从「字根之笔画对应规则资料库」中撷取到每个字根的笔画对应规则。当输入字与样版字之笔画对应完成后,便利用「字根之笔画空间关系资料库」及「文字图样资料库」之资讯,来计算字间距离。本发明同时揭露「最佳字根拆解规则」之求取方法。且可同时利用多种笔画几何特征及可能之拆解顺序,求取其中可使错误拆解笔画数最小的,而得所要的最佳字根拆解规则。
申请公布号 TW347502 申请公布日期 1998.12.11
申请号 TW086105498 申请日期 1997.04.26
申请人 财团法人工业技术研究院 发明人 李素瑛;周开祥;陈如薇
分类号 G06F17/00 主分类号 G06F17/00
代理机构 代理人
主权项 1.一种使用阶层式参考资料库与以规则为基础的线上中文字辨识方法,其中,每一个字包括了一个或一个以上的构成字根,而每一个字根包含了一个或一个以上的笔画,包含:(a)文字描述资料库,储存一个多字种之字集,内容包含字集中每个字构成之字根规则码与字形结构,每一个字形结构提供了一个文字图样之字根间的空间关系;(b)字根之笔画对应规则资料库,储存所有字根的笔画对应规则,每组笔画对应规则可利用(a)中所提的字根规则码来表示;(c)字形结构资料库,储存字形合成规则、字形结构的拆解规则、与字根间的空间关系;(d)字根标准图样资料库,储存字根正规化之图样;(e)字根之笔画空间关系资料库,储存每一字根的笔画空间关系;以及(f)结合上述的资料库(a)、(b)、和(c),可阶层式地构成笔画对应用的文字笔画对应规则资料库;结合上述的资料库(a)与(e),可阶层式地构成计算文字距离用的文字笔画空间关系资料库;结合上述的(a)、(c)及(e),可阶层式地构成文字图样(character pattern)资料库,可用于文字监别中。2.如申请专利范围第1项所述之线上中文字形辨识方法,其「文字描述资料库」中之字形结构是以多位码来编码,该码可分成两个部份,第一部份表示字形结构中的字根个数;第二个部份则为在相同字根数中的流水号码(seriatim number);同样地,字根码也分成两个部份:第一部份表示字根中的笔画个数;第二个部份则为在相同笔画数中的流水号码。3.如申请专利范围第1项所述之线上中文字形辨识方法,每一字根之笔画对应规则资料库中的笔画对应规则,是描述一个标准笔画,求取对应笔画所需之条件,而每一个笔画对应规则使用到一个或一个以上的笔画几何特征。4.如申请专利范围第1项所述之线上中文字形辨识方法,对于同样的字形结构,其于字形结构资料库,可允许包含一种以上的拆解方式,即具有相同字形结构的不同的中文字可使用不同的拆解顺序,而使得拆解稳定度提升。5.如申请专利范围第4项所述之线上中文字形辨识方法,其字形结构的拆解顺序包含一个自然顺序,其与人类书写习惯相似。6.如申请专利范围第1项所述之线上中文字形辨识方法,其中之每一字根标准图样资料库中的字根标准图样,是以笔画线段的极点座标来表示,并用以构成字根之标准图样。7.如申请专利范围第1项所述之线上中文字形辨识方法,包括:(a)使用文字描述资料库与字形结构资料库,并根据预定的拆解顺序,来拆解输入字为字根;(b)使用字根的笔画对应规则资料库来寻找输入笔画之对应笔画;以及(c)使用字形结构资料库,包括字形合成规则与字根间的空间关系,及字根之笔画空间关系资料库,来计算字间之距离値。8.如申请专利范围第7项所述之线上中文字形辨识方法,进一步可包含数个资料库之使用,如,文字描述资料库,字根之笔画空间关系资料库,字根标准图样资料库,与字形结构资料库;一个预定的拆解顺序下,拆解输入字为字根并完成笔画对应,以计算一个样版字形与输入字的监别函数。9.如申请专利范围第8项所述之线上中文字形辨识方法,进一步包含使用文字描述资料库,字根之笔画空间关系资料库,字根标准图样资料库,与字形结构资料库,以进行文字之详细识别。10.如申请专利范围第1项所述之线上中文字形辨识方法,进一步包含所使用到多重的笔画几何特征,并配合多种可能的拆解顺序与字形样本,推导出每个字的最佳拆解规则。11.一线上中文辨识系统用之阶层式参考资料库,可用于以规则为基础的文字辨识方式,包含:(a)文字描述资料库,其中储存文字构成字根的规则码与字形结构,此字形结构提供了一个待辨识字集中,多种样版字的构成字根间的空间关系;(b)字根之笔画对应规则资料库,其中储存(a)项资料库所用到之字根规则码对应之字根笔画对应规则;(c)字形结构资料库,其中储存参考字库中所用到之字形图样合成规则,字形结构拆解规则,以及字根间之空间关系;(d)字根之标准图样资料库,其中储存字根正规化之标准图样;(e)字根中笔画空间关系资料库,其中储存每一个字根中的笔画空间关系;以及(f)阶层式结合资料库(a)、(b)、与(c),构成一个笔画对应用的文字笔画对应规则资料库;阶层式结合资料库(a)与(e)构成一个计算字形距离用的文字笔画空间关系资料库;阶层式结合资料库(a)、(c)与(d),构成一个用于监别文字的文字图样资料库以合成样版字形。12.如申请专利范围第11项所述之阶层式的参考资料库,其文字描述资料库中的样版字形的每一个字形结构,以多位数字码表示,该码可分成两个部份,第一部份表示字形结构中的字根个数;第二个部份则为在相同字根数中的流水号码(seriatim number);同样地,字根码也为多位数字码,也可分两个部份,第一部份表示字根中的笔画个数;第二个部份则为在相同笔画数中的流水号码。13.如申请专利范围第11项所述之阶层式的参考资料库,其字根之笔画对应规则资料库中的每个笔画对应规则包含一个或一个以上的笔画几何特征,每个笔画对应规则是描述一个标准笔画求取对应笔画所需之条件。14.如申请专利范围第11项所述之阶层式的参考资料库,其字形结构资料库中的每一个字形结构可能有一个以上的字根拆解规则,具有相同字形结构之不同样版字可利用不同之字根拆解顺序,以增进拆解之稳定度。15.如申请专利范围第14项所述之阶层式的参考资料库,其中每个字形结构的拆解顺序包含一个自然顺序,此自然顺序类似于人类的书写习惯。16.如申请专利范围第11项所述之阶层式的参考资料库,其中字根标准图样资料库中的字根的标准图样,是以组成线段之极点座标所表示而成。图式简单说明:第一图、一个以规则为基础之线上中文字形辨识系统之架构图。第二图a、显示没有采用阶层式结构时,中文字「吃」和「杏」的笔画表示结果。第二图b、显示采用阶层式结构时,中文字「吃」和「杏」的笔画表示结果。第三图、显示十个最常出现的中文字形几何结构。每一个字形结构都有一个字形结构码,并将其出现次数,列在文字结构码之后的括号中。第四图a、显示在没有采用阶层式结构时,中文字「吃」和「杏」的笔画间空间关系的表示结果。第四图b、显示在采用阶层式结构时,中文字「吃」和「杏」。笔画间空间关系的表示结果。第五图a、显示在没有采用阶层式结构时,中文字「吃」和「杏」的笔画对应规则。第五图b、显示在采用阶层式结构时,中文字「吃」和「杏」的笔画对应规则。第六图、显示另外运用适当的字根码拆解程序可以改善字根拆解之稳定度。第七图、显示一个待拆解之字根与其相邻之字根间的16种空间关系。第八图a、此一实例说明中文字「吃」中,一个待拆解字根会错误地将其右边字根之笔画包含在其范围中。图的上方为正确的拆解方式。第八图b、此一实例说明中文字「呆」中,一个待拆解字根会错误地将其下方字根之笔画包含在其范围中。图的左方为正确的拆解方式。
地址 新竹县竹东镇中兴路四段一九五号