发明名称 字符识别装置和字符识别方法
摘要 提供高精度且高速地识别包括简体文字和繁体文字的汉字的字符识别装置和字符识别方法。运算部(150)将同形字符表保存在字符辨别用辞典(165)中,参照该同形字符表中保存的候选字符来进行字符识别,其中,该同形字符表是将以下字符图像作为相似度高的同形字符进行分组而得到的:将由多个区域的汉字要素构成的汉字按每个区域进行分割所得到的汉字结构相同、且同一区域位置的汉字要素之间的基于余弦相似度的相似度高于规定值的字符图像;以及汉字要素之间的通过欧几里德距离值计算步骤计算出的欧几里德距离值小于规定值的字符图像。
申请公布号 CN105320971A 申请公布日期 2016.02.10
申请号 CN201510313899.7 申请日期 2015.06.09
申请人 株式会社日立信息通信工程 发明人 堤庸昂;中岛和树
分类号 G06K9/68(2006.01)I 主分类号 G06K9/68(2006.01)I
代理机构 北京林达刘知识产权代理事务所(普通合伙) 11277 代理人 刘新宇
主权项 一种字符识别装置,具备:输入部,其以光学方式将包括汉字的字符读取为字符图像,该汉字由多个区域的汉字要素构成;图像获取部,其获取使用该输入部读取的字符图像;外部存储部,其保存字符辨别用辞典和同形字符表,该字符辨别用辞典保存有多个标准字符图像,该同形字符表用于按共同的部首、旁将汉字进行分类并且将目视时相像的相似和同形的汉字进行分类;以及运算部,其参照该字符辨别用辞典和同形字符表来控制字符图像的字符识别,其中,该运算部参照字符辨别用辞典对输入的字符图像执行字符识别处理,该字符识别装置的特征在于,上述运算部包括:分割区域判定单元,判定按汉字要素对上述图像获取部所获取的1个字符单位的字符图像进行分割的分割区域;余弦相似度计算单元,计算通过该分割区域判定单元进行了判定的字符图像的同一区域位置处的汉字要素的余弦相似度;欧几里德距离值计算单元,计算通过上述分割区域判定单元进行了判定的字符图像的同一区域位置处的汉字要素的欧几里德距离值;同形字符表制作单元,制作将以下字符图像作为相似度高的同形字符进行分组而得到的同形字符表:基于通过上述分割区域判定单元判定出的分割区域的汉字结构相同且同一区域位置的汉字要素之间的基于通过上述余弦相似度计算单元计算出的余弦相似度的相似度高于规定值的字符图像、以及汉字要素之间的通过上述欧几里德距离值计算单元计算出的欧几里德距离值小于规定值的字符图像;以及标准字符识别单元,将以下字符图像之间的逻辑或的字符图像作为候选字符来进行字符识别:通过上述余弦相似度计算单元计算出的余弦相似度大于规定的余弦相似度的字符图像、通过上述欧几里德距离值计算单元计算出的欧几里德距离值小于规定值的字符图像、以及通过上述同形字符表制作单元将同一区域位置的相似度高的字符图像进行分组而得到的同形字符的字符图像。
地址 日本神奈川县