发明名称 一种基于空间变换的自然场景下文本识别方法
摘要 本发明公开了一种基于空间变换的自然场景下文本识别方法,首先对训练图像集中的文本图像,获取图像的文本内容,并训练基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络等网络模型;然后利用训练得到的网络模型对待识别图像集中图像进行空间变换,得到变换后的待识别图像;然后计算变换后的待识别图像的特征向量以及预测概率序列,最终获取图像识别的结果。本发明方法文本识别准确率高,且能够克服文本排列不规则等不利因素的影响。
申请公布号 CN105740909A 申请公布日期 2016.07.06
申请号 CN201610072466.1 申请日期 2016.02.02
申请人 华中科技大学 发明人 白翔;石葆光;张新浩
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 曹葆青
主权项 一种基于空间变换的自然场景下文本识别方法,其特征在于,所述方法包括下述步骤:(1)训练得到文本识别的参数,所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型,包括如下子步骤:(1.1)标记训练图像集中所有文本图像的文本内容,得到训练数据集;(1.2)定义用于对待识别图像进行识别的级联网络,所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成,根据上述训练数据集,利用反向传导方法训练该级联网络,得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型;(2)利用基准点定位网络对待识别图像做空间变换,包括如下子步骤:(2.1)利用基准点定位网络模型计算待识别图像的基准点位置;(2.2)根据所述待识别图像的基准点位置,利用薄板样条函数转换矩阵获取原待识别图像和变换后待识别图像的坐标对应关系;(2.3)根据上述原待识别图像和变换后待识别图像的坐标对应关系获取变换后的待识别图像;(3)对变换后的待识别图像进行识别:(3.1)利用图像编码器网络模型获取变换后的待识别图像的特征向量;(3.2)根据上述待识别图像的特征向量,利用特征解码器网络 模型,获取待识别图像的预测概率序列;(3.3)利用上述得到的预测概率序列获取待识别图像最终的识别结果。
地址 430074 湖北省武汉市洪山区珞喻路1037号