发明名称 一种医疗检验单的检验项信息自动提取方法
摘要 本发明涉及一种医疗检验单的检验项信息自动提取方法,包括如下步骤:S1预处理;S2化验结果识别和定位;S3化验项目名称识别和定位;S4化验项目名称和化验项目结果匹配。本发明实现了复杂医疗检验单拍照图像中的文字识别和信息提取功能,对于文字倾斜、定向错误、噪音干扰、版式复杂、光照不均等情况有较强的鲁棒性,解决了复杂医疗检验单拍照图像中文字倾斜、定向错误、噪音干扰、版式复杂、光照不均等多种情况下的文字识别和信息提取问题。本发明对多种复杂情况下的医疗检验单拍照图像进行文字识别和信息提取,准确率达到90%以上,能够满足个人医疗记录保存和检索等应用的需要。
申请公布号 CN106355177A 申请公布日期 2017.01.25
申请号 CN201610684785.8 申请日期 2016.08.17
申请人 天津德闻数据科技有限公司 发明人 云楠;吴成宇
分类号 G06K9/32(2006.01)I 主分类号 G06K9/32(2006.01)I
代理机构 北京世誉鑫诚专利代理事务所(普通合伙) 11368 代理人 郭官厚
主权项 一种医疗检验单的检验项信息自动提取方法,其特征在于,包括如下步骤:S1预处理:首先,将拍照得到的彩色图像分别通过灰度化和自适应二值化处理转为二值图像,并在二值图像上进行连通体搜索,得到所有的连通体信息;然后,根据连通体的宽度和高度滤除过宽或过高的连通体,并将重叠率较高的连通体合并;最后,根据每一连通体在多个方向上的识别可信度进行投票,得到医疗检验单拍照图像的正确定向结果;S2化验结果识别和定位:首先,对每一连通体按英文和数字进行字符识别,将识别可信度较高的连通体保留,并将垂直方向重叠、水平方向距离较近的连通体合并为英文数字字符组;然后,考虑检验结果列有汉字结果的情况,对每一连通体及其可能的组合按汉字进行字符识别,将识别可信度较高的连通体或连通体组合保留,并将垂直方向重叠、水平方向距离较近的字符组合并,生成多个候选检验结果列,以数字结果数量、汉字结果数量、英文结果数量为依据从候选结果中选出可信的结果列;S3化验项目名称识别和定位:首先,将按英文和数字识别可信度较低的连通体作为候选汉字连通体,将垂直方向重叠、水平方向距离较近的连通体或连通体组合合并为汉字字符组,再将水平方向重叠、垂直方向距离较近的连通体或连通体组合合并为候选项目名称列,并对候选项目名称列进行汉字识别;最后,根据化验项目名称关键词列表从候选项目名称列中找出匹配的项目名称识别结果,不匹配的候选项目名称做出标记,但不删除;S4化验项目名称和化验项目结果匹配:首先,找到水平方向与化验项目名称列和化验结果列均重叠、且其顶部距离化验项目名称列和化验项目结果列顶部最近的连通体A;然后,以连通体A的上边界作为参考线,计算最顶端化验项目名称和化验结果距该参考线的Y方向距离,确定第一个化验项目名称对应的正确化验结果项,再根据第一对匹配结果的位置进行第二对结果的匹配,以此类推;最后,对于一对匹配结果,如果对应的化验项目名称是不匹配的候选项目名称,且化验结果不是数字、也不是匹配的英文关键词或汉字关键词,则认为该匹配结果无效,将位于顶端或底端的无效结果滤除。
地址 300190 天津市滨海新区华苑产业区华天道2号1120房屋