发明名称 面向Web2.0标签图片共享空间的图片检索聚类方法
摘要 本发明公开了一种面向Web2.0标签图片共享空间的检索结果聚类方法。挖掘标签间的词汇关系及关联关系,查询标签根据标签间词汇关系得到扩展的查询标签集;用扩展的查询标签集得到与查询相关的候选图像集;根据查询标签与候选图像集内标签的相关度度量,选出前K个最相关的标签;根据这K个标签两两之间的关联度,采用一种自顶向下基于图划分的聚类算法,自动将K个标签分成最优的聚类结果;候选图像集也相应地根据聚类标签被聚类。针对标签表达不一致问题实现有效的查询扩充,基于最相关标签集聚类的图像聚类方法解决了标签语义多样性的问题。相比于传统方法,本发明提供用户在Web2.0标签图片共享空间内快速有效的进行图片检索和浏览。
申请公布号 CN101694657B 申请公布日期 2011.11.09
申请号 CN200910152883.7 申请日期 2009.09.18
申请人 浙江大学 发明人 李晓燕;陈刚;寿黎但;胡天磊;陈珂
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 林怀禹
主权项 1.一种面向Web2.0标签图片共享空间的图片结果聚类方法,其特征在于该方法的步骤如下:1)对图片数据库建立倒排索引,对图片数据库内的标签集合进行预处理分析,包括:第一步,通过已有词汇关联知识、词形变换知识构建标签倒排索引表TAIL用于查询扩展,首先借助已有词汇关联知识和词形变化知识构建包含同义词、词形变化和语义相近词汇关系的标签词典,根据标签词典构建词汇关系的最小结构标签原子<img file="FSB00000526431900011.GIF" wi="62" he="58" />它是一个标签的集合,满足下列条件:a)如果一个标签原子<img file="FSB00000526431900012.GIF" wi="52" he="56" />包含一个标签t,它必须也包含标签辞典中所有与标签t词汇相关的标签;b)对<img file="FSB00000526431900013.GIF" wi="44" he="60" />中任意两个标签t<sub>1</sub>和t<sub>2</sub>,它们必须词汇相关;一个标签可能出现在多个标签原子中,因为它在标签辞典中可能具有多种词义,对所有标签原子构建标签与标签原子之间的倒排索引表<img file="FSB00000526431900014.GIF" wi="296" he="70" />的id,<img file="FSB00000526431900015.GIF" wi="87" he="70" />的id,...,<img file="FSB00000526431900016.GIF" wi="88" he="67" />的id,...>,其中<img file="FSB00000526431900017.GIF" wi="71" he="82" />包含标签t<sub>i</sub>的标签原子,称此倒排索引表TAIL为标签原子倒排表;第二步,计算标签间的关联矩阵以用于聚类计算,标签间的关联度值采用Jaccard系数计算,对于标签ti和tj,I(ti)表示含有标签ti的图片集,I(tj)是含有标签tj的图片集,标签ti与tj间的关联度值aff(ti,tj)为|I(ti)∩I(tj)|/|I(ti)∪I(tj)|;2)对图片基于标签检索,并进行结果聚类的操作过程:第一步,对于查询标签通过构建的标签间的词汇关系结构进行查询扩展,用扩展后的标签查询获得跟查询可能相关的所有候选图片集Can_I,步骤如下:a)对于含有n个查询标签的查询q(t<sub>1</sub>,t<sub>2</sub>,...,ti,...,t<sub>n</sub>),通过标签原子倒排索引表TAIL得到所有被查询q支持的查询q’(t’<sub>1</sub>,t’<sub>2</sub>,...,t’i,...,t’<sub>n</sub>),其中t’<sub>i</sub>和t<sub>i</sub>同属于一个标签原子;b)对于查询q或每个被查询q支持的查询q’,通过图片倒排索引获得包含一个查询中所有标签词的图片,查询q与其支持的所有查询q’获得的结果图片集合并作为候选图片集Can_I;第二步,根据标签t与查询q之间的一种相关度计算度量rel(t,q),从候选图片集Can_I包含的标签集Can_T中选出前K个与查询最相关的标签,相关度计算如下:a)计算标签和扩展后查询共同出现的频率,等同于计算该标签在候选图片集Can_I内的使用频率f(t);b)将标签在候选图片集Can_I的使用频率f(t)和该标签在整个图片数据库被使用的倒文档频率idf(t)的乘积作为该标签与查询间的相关度计算度量rel(t,q);第三步,取出前K个最相关的标签的关联子矩阵,如果将K个标签看作K个顶点,两标签ti与tj间的关联度值看作两标签相连边的权重w(i,j),对K个标签的聚类问题看作是对含K个顶点的带权重无向图的划分问题,采用一种自顶向下的图划分算法来聚类K个标签,首先介绍划分过程中的一个重要概念:假设图G被划分为k个顶点集合,给这个划分P定义一个度量值:<img file="FSB00000526431900021.GIF" wi="806" he="153" />其中A(V,V)是顶点集V中所有任意两点间边的权重之和,A(Vc,Vc)是顶点集Vc中所有任意两点间边的权重之和,A(Vc,V)是顶点集Vc,V之间所有边的权重之和;Q值越大表示图划分的结果越好,所以采用自顶向下的启发式划分算法,能快速的找到聚类数不超过阀值θ的最优的k划分结果,步骤如下:a)采用依次二分划分的方法,k的初始值是2,初始划分P就是整个图G作为一个聚类,然后重复以下过程:(1)对于任意一个属于划分P的集合Vc,采用经典的k平均聚类方法将集合Vc二分,分裂得到两个更小的集合Vc1和Vc2;(2)将集合Vc1和Vc2取代划分P中的集合Vc,得到新的划分P’;(3)如果Q(P’)>Q(P),则接受此次划分,更新划分P,否则保持划分P不变;b)如果k>θ或者划分P不能再继续被划分则算法停止;c)将划分P内的集合根据集合的聚合度排序,聚合度按照计算公式<img file="FSB00000526431900022.GIF" wi="1006" he="174" />得到;第四步,根据以上K个标签被划分的k个聚类结果,候选图片集Can_I的聚类过程可以描述如下:a)对于K个标签被划分后的一个聚类Cluster_i,候选图片集Can_I中的任意图片如果含有m个或者m个以上属于聚类Cluster_i的标签,则该图片归为聚类Cluster_i;b)最后候选图片集Can_I中不被归为任何一个聚类Cluster_i的图片被统一归为聚类Cluster_other;c)最终候选图片结果被划分为k+1个聚类。
地址 310027 浙江省杭州市西湖区浙大路38号