发明名称 流形表面上基于测地距离的K-means聚类多样化检索方法
摘要 本发明公开了一种流形表面上基于测地距离的K-means聚类多样化检索方法,具体包括以下步骤,提取特征,训练并生成多个不同参数的SVM,选出最佳SVM;提取输入图像特征并用最佳SVM执行检索,产生结果排序;利用DB指标选择缓冲池大小值及k近邻的k值;训练集的类空间划分,改进的K-means聚类法;利用测地距离得出最靠近各聚类中心的图像,然后导出最终排序。本发明用基于内容的图像检索技术,自动实现对图像识别和检索,很好的选取最优参数,并在保证相关性的前提下,实现检索结果的多样性,为用户隐藏雷同或近似雷同的检索结果,提取了具有代表性的结果,在尽可能短的时间为用户提供更多样化的信息。
申请公布号 CN102750327B 申请公布日期 2014.07.23
申请号 CN201210172266.5 申请日期 2012.05.30
申请人 合肥工业大学 发明人 赵仲秋;马林海;吴信东;高隽
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 安徽合肥华信知识产权代理有限公司 34112 代理人 余成俊
主权项 一种流形表面上基于测地距离的K‑means聚类多样化检索方法,其特征在于,具体包括以下步骤:(1)首先对训练数据集进行特征提取,利用有不同的参数的SVM分类器对提取的特征进行训练学习;(2)用认证集数据对SVM分类器的参数进行筛选,选出最优参数作为最佳SVM分类器;(3)对输入的测试图像进行特征提取,并作为最佳SVM分类器的输入数据,从而获得数据库中图像与输入图像之间的相关度大小排序;(4)利用DB指标即分类适确性指标对缓冲池大小参数进行筛选;选择缓冲池大小时,要用到两个评价指标:前n幅图像的检索精度Pn,以及前n幅图像覆盖的子概念数CRn;通过SVM分类器检索之后,设置候选缓冲池大小为多组数值,并对缓冲池中图像数据分别进行聚类,计算DB值,比较结果,得出最优缓冲池大小r;使用测地距离替代欧式距离,并应用于p值的选取以及缓冲池大小的选择,算法如下:令C<sub>i</sub>为向量的聚类,X<sub>i</sub>是分配给C<sub>i</sub>的一个n维特征向量;<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>S</mi><mi>i</mi></msub><mo>=</mo><mroot><mrow><mfrac><mn>1</mn><msub><mi>T</mi><mi>i</mi></msub></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>i</mi></msub></munderover></mrow><mi>q</mi></mroot><msup><mrow><mo>|</mo><msub><mi>d</mi><mi>G</mi></msub><mrow><mo>(</mo><msub><mi>X</mi><mi>j</mi></msub><mo>,</mo><msub><mi>A</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>|</mo></mrow><mi>q</mi></msup></mrow>]]></math><img file="FDA0000470090800000011.GIF" wi="564" he="249" /></maths>其中A<sub>i</sub>是C<sub>i</sub>的聚类中心,T<sub>i</sub>是类i的大小,S<sub>i</sub>是一种聚类内部的分散度量,d<sub>G</sub>(X<sub>j,</sub>A<sub>i</sub>)为两点间的测地距离;<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>M</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mo>|</mo><mo>|</mo><msub><mi>A</mi><mi>i</mi></msub><mo>-</mo><msub><mi>A</mi><mi>j</mi></msub><msub><mrow><mo>|</mo><mo>|</mo></mrow><mi>p</mi></msub><mo>=</mo><mroot><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>p</mi></mroot><msup><mrow><mo>|</mo><msub><mi>a</mi><mrow><mi>m</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>,</mo><msub><mi>a</mi><mrow><mi>m</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>|</mo></mrow><mi>p</mi></msup></mrow>]]></math><img file="FDA0000470090800000012.GIF" wi="909" he="249" /></maths>其中M<sub>i,j</sub>为C<sub>i</sub>与C<sub>j</sub>间的距离大小;a<sub>m,i</sub>是A<sub>i</sub>中的第m个元素,并且A中有n个这样的元素,这里的m表明数据的特征,并且M<sub>i</sub>,<sub>j</sub>本质上是当p=2时,类i和j的中心之间的测地距离;根据定义,M<sub>i</sub>,<sub>j</sub>表示第i个聚类和第j个聚类的距离,理想情况下,是使各类间的散度最大,S<sub>i</sub>表示类i的类内散度,应使其尽可能小;(5)对相关度大小按降序排列,选取缓冲池中的图像,利用DB指标对改进的K‑means聚类的p参数进行选择,从而获得此部分图像的各聚类中心;①k‑means聚类方法的目标是将流形上的一组样本点(X1,X2,...XN),分割为k个类集(k&lt;=n),其中每个样本点是一个d维的实向量,类集为S={S1,S2,…Sk},计算数据点到该数据点所在类中心的流形表面距离,使所有点距聚类中心的测地距离值最小:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><munder><mrow><mi>arg</mi><mi>min</mi></mrow><mi>s</mi></munder><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><munder><mi>&Sigma;</mi><mrow><msub><mi>X</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>S</mi><mi>i</mi></msub></mrow></munder><mtext>||</mtext><msub><mi>d</mi><mi>G</mi></msub><mrow><mo>(</mo><msub><mi>X</mi><mi>j</mi></msub><mo>,</mo><msub><mi>&mu;</mi><mi>i</mi></msub><mo>)</mo></mrow><msup><mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup></mrow>]]></math><img file="FDA0000470090800000021.GIF" wi="696" he="196" /></maths>其中,μ<sub>i</sub>是类集,Si的平均值,d<sub>G</sub>(X<sub>j</sub>,A<sub>i</sub>)为两点间的测地距离;算法流程描述如下:首先输入:t,data[n];1)选择t个初始中心点,例如c[0]=data[0],…c[k‑1]=data[t‑1];2)对于data[0]….data[n],分别与c[0]…c[t‑1]比较,若与c[i]沿流形表面的距离最小,就标记为i;3)对于所有标记为i点,重新计算c[i]={所有标记为i的data[j]之和}/标记为i的个数;4)重复2)、3),直到所有c[i]值的变化小于给定阈值;②p值的选取:根据前面所得,固定缓冲池大小为r,为了找到每个主题的最优参数p,采用不同的p值系统的计算图像集之中的不同主题类别的DB指标,设置p值为不同数值,得到不同p值下不同主题所对应的DB值,从而选择出参数p;(6)利用测地距离得出流形上距每个聚类中心最近的图像;(7)得到最终排序。
地址 230009 安徽省合肥市屯溪路193号