发明名称 文书辨识之切字错误自动更正方法及装置
摘要 文书辨识之切字错误自动更正方法,以及以此方法所构成之装置,用以对于文字切割时所造成的切字错误,提供自动更正的功能。首先根据直写或横写的文书格式,配合事先建立可能发生切字错误之字形之垂直字形结构表和水平字形结构表,藉以将候选字矩阵扩展成扩充候选字矩阵。利用语言模型,对扩充候选字矩阵之各字串组合加以评分,选择其中最高者,即可自动更正切字错误。
申请公布号 TW316303 申请公布日期 1997.09.21
申请号 TW085103459 申请日期 1996.03.20
申请人 财团法人工业技术研究院 发明人 张照煌
分类号 G06K9/03 主分类号 G06K9/03
代理机构 代理人
主权项 1.一种文书辨识之切字错误自动更正方法,可用以根据一直写文书之候选字矩阵进行切字错误更正,上述候选字矩阵可经由文字辨识后所产生,其特征在于:利用代表可能发生分割和合并切字错误之字形之一垂直字形结构表,一垂直字元分合装置将上述候选字矩阵扩展为扩充候选字矩阵,再利用一语言模型对上述扩充候选字矩阵组合处理后之字串进行评分处理,选择评分最高之字串,即可将切字错误自动更正。2.如申请专利范围第1项所述之切字错误自动更正方法,上述垂直字形结构表系利用一第一字集中字形,其垂直分离之各部份仍为一第二字集中字形者,所建立之两者关系表。3.如申请专利范围第2项所述之切字错误自动更正方法,其中上述垂直字形结构系利用表列结构表示。4.如申请专利范围第2项所述之切字错误自动更正方法,其中上述垂直字形结构系利用网状结构表示。5.如申请专利范围第2项所述之切字错误自动更正方法,其中上述第一字集可与上述第二字集相同。6.如申请专利范围第1项所述之切字错误自动更正方法,其中上述垂直字元分合装置,利用上述垂直字形结构表,对上述候选字矩阵中机率较高之前L行进行字元合并处理或字元分割处理,产生上述扩充候选字矩阵,L为一正整数且不大于上述候选字矩阵之总行数。7.如申请专利范围第6项所述之切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可交错进行,藉以选择评分最高之字串。8.如申请专利范围第6项所述之切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可批次进行,藉以选择评分最高之字串。9.一种文书辨识之切字错误自动更正装置,可用以根据一直写文书之候选字矩阵进行切字错误更正,上述候选字矩阵可经由文字辨识后所产生,其包括:一垂直字元分合装置,接收上述候选字矩阵,根据一垂直字形结构表,将其扩展为扩充候选字矩阵,藉以表示上述候选字矩阵中字元分割及字元合并之情况;以及一语言模型评分装置,将上述扩充候选字矩阵组合处理后之字串进行评分处理,选择其评分最高之字串,藉以将切字错误自动更正。10.一种文书辨识之切字错误自动更正方法,可用以根据一横写文书之候选字矩阵进行切字错误更正,上述候选字矩阵可经由文字辨识后所产生,其特征在于:利用代表可能发生分割和合并切字错误之字形之水平字形结构表,一水平字元分合装置将上述候选字矩阵扩展为扩充候选字矩阵,再利用一语言模型对上述扩充候选字矩阵组合处理后之字串进行评分处理,选择评分最高之字串,即可将切字错误自动更正。11.如申请专利范围第10项所述之切字错误自动更正方法,上述水平字形结构表系利用一第一字集中字形,其水平分离之各部份仍为一第二字集中字形者,所建立之两者关系表。12.如申请专利范围第11项所述之切字错误自动更正方法,其中上述水平字形结构系利用列结构表示。13.如申请专利范围第11项所述之切字错误自动更正方法,其中上述水平字形结构系利用网状结构表示。14.如申请专利范围第11项所述之切字错误自动更正方法,其中上述第一字集可与上述第二字集相同。15.如申请专利范围第10项所述之切字错误自动更正方法,其中上述水平字元分合装置,利用上述水平字形结构表,对上述候选字矩阵中机率较高之前L行进行字元由左至右之合并处理或字元分割处理,产生上述扩充候选字矩阵,L为一正整数且不大于上述候选字矩阵之总行数。16.如申请专利范围第15项所述之切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可交错进行,藉以选择评分最高之字串。17.如申请专利范围第15项所述之切字错误自动更正方法,其中上述分割处理、合并处理、组合处理、以及评分处理可批次进行,选择评分最高之字串。18.如申请专利范围第10项所述之切字错误自动更正方法,其中上述水平字元分合装置,利用上述水平字形结构表,对上述候选字矩阵中机率较高之前L行进行字元由右至左之合并处理或字元分割处理,产生上述扩充候选字矩阵,L为一正整数且不大于上述候选字矩阵之总行数。19.如申请专利范围第18项所述之切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可交错进行,藉由选择评分最高之字串。20.如申请专利范围第18项所述之切字错误自动更正方法,其中上述字元分割处理、字元合并处理、组合处理、以及评分处理可批次进行,藉由选择评分最高之字串。21.一种文书辨识之切字错误自动更正装置,可用以根据一横写文书之候选字矩阵进行切字错误更正,上述候选字矩阵可经由文字辨识后所产生,其包括:一水平字元分合装置,接收上述候选字矩阵,根据一水平字形结构表,将其扩展为扩充候选字矩阵,藉以表示上述候选字矩阵中字元分割及字元合并之情况;以及一语言模型评分装置,将上述扩充候选字矩阵组合处理后之字串进行评分处理,选择其评分最高之字串,藉以将切字错误自动更正。图示简单说明:第一图为习知文书辨识方法之流程图。第二图为本发明之切字错误自动更正方法之流程图。第三图为本发明之切字错误自动更正装置之方块图。第四图为本发明所采用之左右分离和上下分离之部份字形范例表。
地址 新竹县竹东镇中兴路四段一九五号