发明名称 基于视觉词组的图像检索方法
摘要 本发明公开一种计算机信息处理技术领域的基于视觉词组的图像检索方法,首先对标准图像和待检索图像分别提取显著性区域,并在显著性区域中提取特征描述子,然后对标准图像库中的特征描述子采用随机kd树进行聚类,接着将标准图像和待检索图像的特征描述子分别通过视觉词组进行表示,并根据标准图像的视觉词组创建二维倒排索引,最后将由视觉词组表示的待检索图像的特征描述子在二维倒排索引中进行相似性搜索以及空间几何关系度量,给出最终检索结果。本发明在保证检索准确率的情况下,降低了检索过程的计算量,提高了检索的实时性。
申请公布号 CN102254015B 申请公布日期 2013.11.20
申请号 CN201110205412.5 申请日期 2011.07.21
申请人 上海交通大学 发明人 冯德瀛;杨杰;杨程;刘从新
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海汉声知识产权代理有限公司 31236 代理人 郭国中
主权项 1.一种基于视觉词组的图像检索方法,其特征在于具体为:首先对标准图像和待检索图像分别提取显著性区域,并在显著性区域中提取特征描述子;然后对标准图像库中的特征描述子采用随机kd树进行聚类;接着将标准图像和待检索图像的特征描述子分别通过视觉词组进行表示,并根据标准图像的视觉词组创建二维倒排索引;最后将由视觉词组表示的待检索图像的特征描述子在二维倒排索引中进行相似性搜索以及空间几何关系度量,给出最终检索结果;所述的提取显著性区域包括离线处理和实时处理两个步骤,其中:所述离线处理中,在图像I<sub>i</sub>提取到的显著性区域S<sub>i</sub>中,获取到的SIFT描述子表示为<img file="FDA00003512518900011.GIF" wi="432" he="79" />其中:<img file="FDA00003512518900012.GIF" wi="335" he="71" />是图像I<sub>i</sub>中第r个描述子,维数为128维,n<sub>i</sub>是图像I<sub>i</sub>中SIFT描述子的个数,标准图像库中全部SIFT描述子表示为X=(X<sub>1</sub>,X<sub>2</sub>,…,X<sub>N</sub>);所述实时处理中,在待检索图像Q提取到的显著性区域S<sub>q</sub>中,获取到的SIFT描述子表示为R=(y<sup>1</sup>,y<sup>2</sup>,…,y<sup>L</sup>),其中:y<sup>q</sup>(q=1,2,…,L)是图像Q中第q个描述子,维数为128维,L是图像Q中SIFT描述子的个数;所述空间几何关系度量步骤包括:1)根据SIFT描述子与视觉词组的对应关系,确定待检索图像Q与标准图像I<sub>i</sub>中特征点空间位置坐标的对应关系,获取w对两两相互对应的特征点,其中w=a<sub>i</sub>,a<sub>i</sub>为标准图像I<sub>i</sub>出现的次数;2)不同的SIFT描述子可能会通过相同的视觉词组进行表示,因此在w对特征点中可能会存在特征点对一对多的对应关系,即一个特征点同时会有多个特征点与其相对应,统计待检索图像Q与标准图像I<sub>i</sub>中单一对应的特征点对,设单一对应特征点对的数量为w′;3)从w′对特征点对中随机选取z对特征点,根据特征点空间位置坐标的对应关系计算待检索图像Q与标准图像I<sub>i</sub>的变换矩阵H;4)根据变换矩阵H及特征点空间位置坐标,将待检索图像Q中剩余的w-z个特征点映射到标准图像I<sub>i</sub>中,并计算映射后的特征点坐标与原特征点坐标的欧式距离,如果小于阈值θ,则待检索图像Q与标准图像I<sub>i</sub>中的特征点存在对应关系,统计对应的特征点对数量,设其数量为g<sub>i</sub>;5)重复步骤3)-4),设迭代的次数为λ次,计算待检索图像Q与标准图像I<sub>i</sub>对应的特征点对的平均数量<maths num="0001"><![CDATA[<math><mrow><msub><mover><mi>g</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>=</mo><mfrac><mn>1</mn><mi>&lambda;</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>&lambda;</mi></munderover><msub><mi>g</mi><mi>i</mi></msub><mo>;</mo></mrow></math>]]></maths>6)将二维倒排索引查询到的D个候选标准图像结果按照<img file="FDA00003512518900022.GIF" wi="47" he="54" />值从大到小进行排序,其中最大<img file="FDA00003512518900023.GIF" wi="42" he="54" />值对应的标准图像,即为待检索图像Q的检索结果。
地址 200240 上海市闵行区东川路800号