发明名称 多语言场景字符识别方法及识别系统
摘要 本发明涉及一种多语言场景字符识别方法及识别系统。其中,该方法可以包括:确定场景字符图像中字符的语言类型;根据字符的语言类型,确定深度卷积神经网络模型;利用深度卷积神经网络模型,来提取场景字符图像的卷积层特征;基于卷积层特征,建立空间金字塔模型;利用高斯模型在空间金字塔模型上对每一空间区域进行高阶编码;将高阶编码后的结果拼接起来,作为场景字符描述子;利用分类器对场景字符描述子进行分类,以实现多语言场景字符的识别。本发明实施例对多语言的场景字符图像具有很好的识别效果,是一种通用的字符识别方法,对多语言场景文字识别具有良好的适应性。
申请公布号 CN106570521A 申请公布日期 2017.04.19
申请号 CN201610924239.7 申请日期 2016.10.24
申请人 中国科学院自动化研究所 发明人 史存召;王燕娜;王春恒;肖柏华
分类号 G06K9/62(2006.01)I;G06K9/32(2006.01)I;G06K9/68(2006.01)I;G06N3/08(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京瀚仁知识产权代理事务所(普通合伙) 11482 代理人 宋宝库
主权项 一种多语言场景字符识别方法,其特征在于,所述方法包括:确定场景字符图像中字符的语言类型;根据所述字符的语言类型,确定深度卷积神经网络模型;利用所述深度卷积神经网络模型,来提取所述场景字符图像的卷积层特征;基于所述卷积层特征,建立空间金字塔模型;利用高斯模型在所述空间金字塔模型上对每一空间区域进行高阶编码;将高阶编码后的结果拼接起来,作为场景字符描述子;利用分类器对所述场景字符描述子进行分类,以实现多语言场景字符的识别。
地址 100080 北京市海淀区中关村东路95号