发明名称 面向植物叶片的图像检索的自适应的鲁棒CMVM特征降维方法
摘要 本发明公开了一种面向植物叶片的图形检索的自适应的鲁棒CMVM特征降维方法,从图像流形特征抽取和选择层面展开研究,采用的约束最大差异投影(CMVM)半监督流形降维方法既有保持正类局域“子概念”区分性的能力,又有强化正反类别即“概念”的区分性的能力,为多样化图像检索提供了有效的服务;面向图像检索的实际应用,针对CMVM的基本问题,本发明提出去除噪声点方法,提出线性近似法来解决CMVM样本外点学问题,提出设计多样化检索的“有序”层次最大间隔相关性评价函数来进行CMVM流形参数的选择和图像本征维数的估计,在此基础上,提出面向多样化图像检索的自适应的鲁棒CMVM算法。本发明去除冗余特征,提高了检索的效率。
申请公布号 CN102930283A 申请公布日期 2013.02.13
申请号 CN201210285032.1 申请日期 2012.08.10
申请人 合肥工业大学 发明人 赵仲秋;黄德双;吴信东;马林海
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 安徽合肥华信知识产权代理有限公司 34112 代理人 余成俊
主权项 1.一种面向植物叶片的图像检索的自适应的鲁棒CMVM特征降维方法,其特征在于,具体包括以下步骤:(1)对于植物图像数据集进行预处理;(2)采用交互式水平集分割方法进行图像分割;(3)对于分割后的图像数据集使用自适应的鲁棒CMVM半监督流形学习算法进行降维,其中工作包括:1)可应用于多样化CBIR的CMVM流形学习中的噪声处理问题首先用Boxplot箱线图方法去除样本集中的噪声点,然后采取强化正类局域保持的方法消除正类局域内的反类噪声样本对正类子流形学习的影响,具体如下:①去除图像数据集中的噪声点使用局域鲁棒主分量分析(RPCA)方法,设置用以表示数据点为噪声可能性的权值和数据点局域PCA映射误差两者之间的函数关系,接着采用循环赋权最小均方(IRLS)算法对每一个数据点包括噪声进行赋权优化;然后利用Boxplot统计工具对权值进行分析,将权值为奇异值所对应的点看作噪声点,从原始数据中去掉这些噪声点后再进行后续的流形学习;②消除正类局域内反类噪声样本的影响CMVM应用到多样化图像检索中时,正类局域内的反类噪声样本会使正类子流形产生扭曲或变形,从而不利正类中“子概念”的区分,因此,需要在原局域约束项的基础上,再添加一个如下正类局域约束项:<maths num="0001"><![CDATA[<math><mrow><msubsup><mi>J</mi><mi>L</mi><mi>P</mi></msubsup><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></munder><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>Y</mi><mi>j</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><msubsup><mi>L</mi><mi>ij</mi><mi>P</mi></msubsup><mo>=</mo><mn>2</mn><mi>tr</mi><mo>{</mo><mi>Y</mi><mrow><mo>(</mo><msup><mi>D</mi><mi>P</mi></msup><mo>-</mo><msup><mi>L</mi><mi>P</mi></msup><mo>)</mo></mrow><msup><mi>Y</mi><mi>T</mi></msup><mo>}</mo></mrow></math>]]></maths>其中Y<sub>i</sub>,Y<sub>j</sub>分别为样本X<sub>i</sub>,X<sub>j</sub>的低维映射坐标;<img file="FDA0000199816522.GIF" wi="191" he="84" />,类别关联标签l<sub>ij</sub>在样本X<sub>i</sub>,X<sub>j</sub>都属于正类时值为1,否则为0,L<sub>ij</sub>是局部关系矩阵L中的元素,是样本点X<sub>i</sub>,X<sub>j</sub>之间的连接权值,它由邻域关系来定义;D<sup>P</sup>是对角阵,其元素<img file="FDA0000199816523.GIF" wi="241" he="116" />,A是线性变换矩阵;2)基于线性近似法的CMVM流形的样本外点学习和本征维数估计以线性近似的方式来解决CMVM算法样本外点学习能力的问题,假设高维数据特征空间和低维嵌入之间存在一种线性映射矩阵A,即Y=A<sup>T</sup>X,则CMVM中正反类子流形差异目标函数可以表示为:<maths num="0002"><![CDATA[<math><mfenced open="" close=""><mtable><mtr><mtd><msub><mi>J</mi><mi>D</mi></msub><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></munder><msub><mi>H</mi><mi>ij</mi></msub><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>Y</mi><mi>j</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>=</mo><mn>2</mn><mi>tr</mi><mo>{</mo><mi>Y</mi><mrow><mo>(</mo><mi>Q</mi><mo>-</mo><mi>H</mi><mo>)</mo></mrow><msup><mi>Y</mi><mi>T</mi></msup><mo>}</mo></mtd></mtr><mtr><mtd><mo>=</mo><mn>2</mn><mi>tr</mi><mo>{</mo><msup><mi>A</mi><mi>T</mi></msup><mi>X</mi><mrow><mo>(</mo><mi>Q</mi><mo>-</mo><mi>H</mi><mo>)</mo></mrow><msup><mi>X</mi><mi>T</mi></msup><mi>A</mi><mo>}</mo></mtd></mtr></mtable></mfenced></math>]]></maths>其中H是正反类别关联信息矩阵,H<sub>ij</sub>在样本X<sub>i</sub>,X<sub>j</sub>属于同类时值为0,否则为1,Q是对角阵,Q<sub>ii</sub>=Σ<sub>j</sub>H<sub>ij</sub>;具有局域和正类局域双约束的极值优化问题表示为如下公式:<maths num="0003"><![CDATA[<math><mfenced open="{" close=""><mtable><mtr><mtd><mi>max</mi><mo>{</mo><msub><mi>J</mi><mi>D</mi></msub><mo>}</mo></mtd></mtr><mtr><mtd><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><mi>tr</mi><mo>{</mo><msup><mi>A</mi><mi>T</mi></msup><mi>X</mi><mrow><mo>(</mo><mi>D</mi><mo>-</mo><mi>L</mi><mo>)</mo></mrow><msup><mi>X</mi><mi>T</mi></msup><mi>A</mi><mo>}</mo><mo>=</mo><mi>tr</mi><mo>{</mo><mi>X</mi><mrow><mo>(</mo><mi>D</mi><mo>-</mo><mi>L</mi><mo>)</mo></mrow><msup><mi>X</mi><mi>T</mi></msup><mo>}</mo></mtd></mtr><mtr><mtd><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><mi>tr</mi><mo>{</mo><msup><mi>A</mi><mi>T</mi></msup><mi>X</mi><mrow><mo>(</mo><msup><mi>D</mi><mi>P</mi></msup><mo>-</mo><msup><mi>L</mi><mi>P</mi></msup><mo>)</mo></mrow><msup><mi>X</mi><mi>T</mi></msup><mi>A</mi><mo>}</mo><mo>=</mo><mi>tr</mi><mo>{</mo><mi>X</mi><mrow><mo>(</mo><msup><mi>D</mi><mi>P</mi></msup><mo>-</mo><msup><mi>L</mi><mi>P</mi></msup><mo>)</mo></mrow><msup><mi>X</mi><mi>T</mi></msup><mo>}</mo></mtd></mtr></mtable></mfenced></math>]]></maths>采用拉普拉斯数乘法将这个双约束极值问题转化为求解广义特征向量问题,以求出线性变换矩阵A,线性近似法中,特征维数由一定个数的较大特征值之和与所有特征值之和的比值大于给定阈值来估计;3)可应用于多样化CBIR的CMVM流形参数选择和本征维数估计从训练集中分解出认证集,来对样本点邻域参数进行选择;在不同参数的流形空间内,由样本间的距离直接度量或者设计分类器来实施认证集中的图像检索,然后设计“有序”层次MMR函数对检索结果进行评估,以选择最优流形参数,将基于“有序”层次MMR函数对不同维数的检索结果进行评价,然后利用评价结果与维数的关系对特征维数进行估计,即当本征维数增多而MMR评估值变化缓慢时,当前维数即为本征维数的估计值;MMR评价函数应该是对在保证检索相关性前提下提高多样性这一“有序”层次需求进行合适的表达,并且需要融合样本的“概念”标签,“有序”层次MMR评价函数如下:<maths num="0004"><![CDATA[<math><mrow><msup><mi>MMR</mi><mrow><mo>(</mo><msub><mi>N</mi><mi>t</mi></msub><mo>)</mo></mrow></msup><mo>=</mo><mfrac><mn>1</mn><mrow><msub><mi>N</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>N</mi><mi>t</mi></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>t</mi></msub></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>j</mi><mo>&NotEqual;</mo><mi>i</mi></mrow><msub><mi>N</mi><mi>t</mi></msub></munderover><mi>d</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>i</mi></msub><mo>,</mo><msub><mi>I</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>*</mo><mi>r</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>*</mo><mi>r</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></math>]]></maths>式中N<sub>t</sub>表示检索结果图像数;r(I<sub>i</sub>)在图像I<sub>i</sub>与检索“概念”相关时为1,否则为0;d(I<sub>i</sub>,I<sub>j</sub>)为表示图像间差异性的距离,可直接由欧氏距离度量,而当各图像具有多个“概念”标签,也可以由图像多“概念”表达向量之间的距离来度量;(4)上述的降维过程完成后,基于CMVM特征进行图像检索,检索工具是支持向量机(SVM)、径向基函数神经网络(RBFNN)或模块分类器;(5)得到具有相关性的检索结果。
地址 230009 安徽省合肥市屯溪路193号