主权项 |
一种基于空间变换的自然场景下文本识别方法,其特征在于,所述方法包括下述步骤:(1)训练得到文本识别的参数,所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型,包括如下子步骤:(1.1)标记训练图像集中所有文本图像的文本内容,得到训练数据集;(1.2)定义用于对待识别图像进行识别的级联网络,所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成,根据上述训练数据集,利用反向传导方法训练该级联网络,得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型;(2)利用基准点定位网络对待识别图像做空间变换,包括如下子步骤:(2.1)利用基准点定位网络模型计算待识别图像的基准点位置;(2.2)根据所述待识别图像的基准点位置,利用薄板样条函数转换矩阵获取原待识别图像和变换后待识别图像的坐标对应关系;(2.3)根据上述原待识别图像和变换后待识别图像的坐标对应关系获取变换后的待识别图像;(3)对变换后的待识别图像进行识别:(3.1)利用图像编码器网络模型获取变换后的待识别图像的特征向量;(3.2)根据上述待识别图像的特征向量,利用特征解码器网络 模型,获取待识别图像的预测概率序列;(3.3)利用上述得到的预测概率序列获取待识别图像最终的识别结果。 |