发明名称 基于卷积神经网络和空间金字塔匹配的图像排序模型
摘要 基于卷积神经网络和空间金字塔匹配的图像排序模型,结合近似最近邻匹配算法和类似的SPM算法作为图像之间相似性的度量。该模型包括卷积神经网络、近似最近邻匹配算法、类似空间金字塔匹配算法的应用。图像块的特征没有类别的划分,而是对利用快速最近邻查找算法找到的匹配的图像块的数量进行计数作为不同分辨率下的不同匹配数的度量,最后对这些不同分辨率下的不同匹配数加权求和作为两幅图像相似性的度量。将训练好的卷积神经网络提取的图像块的特征在同一个训练集上用三种相似性度量方法进行了测试;利用卷积神经网络提取图像块的特征得到特征向量集,利用最近邻匹配算法同时考虑空间信息的方法对图像之间相似性的度量有一定的研究价值。
申请公布号 CN105718960A 申请公布日期 2016.06.29
申请号 CN201610057640.5 申请日期 2016.01.27
申请人 北京工业大学 发明人 刘波;陆雅
分类号 G06K9/62(2006.01)I;G06N3/02(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 沈波
主权项 基于卷积神经网络和空间金字塔匹配的图像排序模型,其中包括卷积神经网络、近似最近邻匹配算法、类似空间金字塔匹配(SPM)算法的应用;其特征在于:主要步骤如下,S1基于卷积神经网络的图像块的特征提取图像块的特征描述符,是为了计算图像块之间的相似度,利用卷积神经网络的学习能力直接从图像数据集中学习到图像的特征描述符;利用卷积神经网络进行特征提取,最主要的就是网络结构的设计,防止过拟合的发生;模型由两个分支构成,对输入的图像块,进行下采样和中间部分的切割,得到的两个大小相同的部分分别进行特征提取,每一个分支均由四个卷积层、两个池化层和四个ReLU层组成,最后对两个部分得到的特征进行线性组合得到图像块的特征描述符,每一个模型的输入是一组数据,即两个图像块,两个图像块共享相同的网络结构和参数;两个图像块的特征描述符最终要被输入要决策层,来判断两个图像块是否相似,输出的结果与这组数据对应的标签进行对比,并利用反向传播算法对模型进行优化,直到模型收敛;将模型的结构设计成两个分支是考虑到图像块中间部分的信息比图像块边缘部分更具有价值,同时多分辨率下的信息对提高图像的匹配度至关重要;S2快速最近邻查找算法在图像检索领域中,在高维的图像特征向量中进行查找和匹配是常用的两种操作,从大规模的高维数据空间中快速准确定位结果向量是至关重要的问题;Kd树(K‑dimension Tree),是一种针对高维索引的树形数据结构,是一种常用于高维空间中的近似最近邻查找技术;这种数据结构最主要的就是Kd树的构建和查找过程,下面主要介绍Kd树的构建和查找算法过程如下;Kd树的构建类似于二叉查找树的构建过程,但是仍然有其自身特点,具体过程表述如下:a)对数据集中的所有数据的每一个维度计算方差,判断所有方差是否相等,如果相等,则建立一个叶子节点,将数据集中所有数据储存到该节点中,结束;否则转至b);b)选择方差最大的维度作为划分的维度k,计算所有数据在这一个维度下的数值的中值作为划分的数值m,同时建立一个新的节点用于储存划分维度和划分值;c)将数据集中的所有数据按照c)步中确定的维度k下的数据和划分数值m对比,以不大于和大于为依据,将数据集划分为两个子集;d)对划分的两个集合分别看作新的数据集,转至步骤a);参照Kd树的构建,其查找过程可以按照构建的过程来查找到叶子节点,进而分别计算查找点和叶子节点中的数据点的距离,距离最近的可以认为是查询点的匹配点,但是,划分数据时仅选择一个维度的值进行比较,所以,可能导致按照这种方式得到的点不是最紧邻点,误差较大;针对这个问题,查找过程中进行了回溯操作,但是,这又导致面对较高维度的图像块的特征描述符,这样查找算法效率低下;为此,采用改进的查找算法BBF:a)取节点中保存的划分维度k和数值,将查询点在维度k上的值同m进行比较,根据比较结果选择该节点下的某一个分支下继续访问;同时将另一个未被选择的分支在Kd树中的位置和其同查询点的距离保存到一个优先级队列中;b)如果当前访问的节点不是叶子节点,则重复a)中的比较过程;否则,计算查询点和叶子节点中保存的数据点之间的距离,记录最小的距离为Min以及对应的数据点P;c)如果当前回溯的次数小于所给定的最大回溯次数并且优先级队列不为空,则从队列中取出和查询点距离最小的节点访问,转至步骤a);否则,查找结束,此时变量Min中记录的就是和查询点的最小距离,变量P中就是和查询点匹配的近似最近邻点;通过上述方法,能够高效快速地得到两幅图像中匹配的图像块;S3类似空间金字塔匹配算法空间金字塔匹配(SPM)算法受金字塔匹配核函数的启发,但是两种方法截然不同,空间金字塔匹配算法是直接按照不同的分辨率将图像进行划分,而不是在最终得到的特征空间中对特征集合进行划分,直接在原始图像中利用了图像中的空间信息;该算法是将图像以不同的分辨率进行切分,对每一个分辨率下同一个区域中属于同一个类别的特征进行计数统计,最后将不同特征进行加权连接作为一幅图像的特征直方图作为图像的特征。
地址 100124 北京市朝阳区平乐园100号