发明名称 一种基于知识库的名片OCR数据修正方法和系统
摘要 本发明属于名片识别技术领域,具体涉及一种基于知识库的名片OCR数据修正方法和系统。本发明的系统包括图像输入模块、预处理模块、OCR模块、数据修正模块、结果输出模块。本发明首先对输入名片图像进行包括倾斜校正、剪切、缩放在内的一系列图像处理,然后使用数字形态学处理技术、连通区分析技术从中提取出独立的字符串块作为子图像送入后续的OCR模块;接着,在对OCR的输出结果进行了信息结构化处理后,利用知识库的海量信息,以及文本+图像的两级修正方法、基于知识库IDF值加权的改进DTW方法等,实现对包括地址、单位机构名称以及纯数字在内的信息修正,从而在OCR的基础上,进一步提升识别准确率。
申请公布号 CN103488983A 申请公布日期 2014.01.01
申请号 CN201310419348.X 申请日期 2013.09.13
申请人 复旦大学 发明人 王晓平;肖仰华;汪卫
分类号 G06K9/20(2006.01)I;G06F17/30(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 陆飞;盛志范
主权项 一种基于知识库的名片OCR数据修正系统,其特征在于由五大模块组成:图像输入模块、预处理模块、OCR模块、数据修正模块、结果输出模块,其中:图像输入模块,利用数码相机或手机摄像头将名片照片采集进计算机或手机并储存;预处理模块,利用图像处理技术对照片进行处理,这种处理包括:图像倾斜校正、名片区域剪切、名片尺寸标准化,并提取出各子字块,各子字块中包含的字符满足间距近似相等、字体相同、纵坐标值相近要求;为后续的OCR模块提供干净的输入,以减少识别中可能产生的乱码;OCR模块,将图像信息转化为文本信息;数据修正模块,对OCR识别结果中的错误进行修正,以进一步提高识别准确率;结果输出模块,将修正后的结果进行输出,提交给用户。
地址 200433 上海市杨浦区邯郸路220号