发明名称 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
摘要 本发明公开了一种低分辨率医疗票据图像的文字自动提取和识别系统与方法,所述系统包括图像预处理模块、字段切分模块、单字符切分模块、字符识别模块四大模块,所述方法包括据图像的预处理、字段区域识别、字符串分割和字符识别与验证四大步骤。本发明能够更好的适用于低分辨率医疗票据图像的文字自动提取和识别。通过对票据进行版面分析,能够充分利用这些信息。对于图像质量较低,噪声和图像分辨率影响非常大的图像,利用每个字段区域的语义,有助于将字符串切分成单个字符,从而转化为对单字符的识别。比如,将由纯数字组成的发票号,可以使用专门用于处理只有数字的图像的方法;识别的时候,将识别范围再限制在0~9这十个数字中,识别率即可大大提高。
申请公布号 CN105654072A 申请公布日期 2016.06.08
申请号 CN201610172317.2 申请日期 2016.03.24
申请人 哈尔滨工业大学 发明人 苏统华;涂志莹;周圣杰;曹源江;周靖淳;周韬宇;孙黎
分类号 G06K9/00(2006.01)I;G06K9/20(2006.01)I;G06K9/40(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 哈尔滨龙科专利代理有限公司 23206 代理人 高媛
主权项 一种低分辨率医疗票据图像的文字自动提取和识别系统,其特征在于所述系统由图像预处理模块、字段切分模块、单字符切分模块、字符识别模块四大模块构成,其中:所述图像预处理模块用于降低原始票据图像上的噪点和去除原始票据图像中不需要识别的元素;所述字段切分模块用于使用模板匹配的方法,根据票据图像的版面信息确定各个字段的语义,并且根据语义来约束字符的识别范围;所述单字符切分模块用于使用不同的切分方法切分不同类型的字段;所述字符识别模块用于根据单个字符所在的字段的语义,利用一个字库对OCR识别结果进行过滤。
地址 150000 黑龙江省哈尔滨市南岗区西大直街92号
您可能感兴趣的专利