发明名称 面向图像检索的自适应哈希重排方法
摘要 本发明面向图像检索的自适应哈希重排方法,属于图像检索技术领域,涉及到利用图像哈希方法进行基于内容的图像检索。该方法采用先映射后排序的哈希重排方法,先提取训练库中图像的高维视觉特征向量,选择适当的哈希方法将高维视觉特征映射成哈希码,为每类图像生成特定的类权重向量;计算检索图像的哈希码与训练库中哈希码间的汉明距离,按由小到大的顺序返回检索结果;依据检索结果计算检索图像的自适应权重向量,利用检索图像的自适应权重向量构造加权汉明距离,并利用加权汉明距离对返回图像进行重排,得到更准确的检索结果;该方法根据不同的检索图像计算特定的权重,具有一般性,且在没有增加计算复杂度的同时明显提高了检索效果。
申请公布号 CN103226585B 申请公布日期 2015.10.28
申请号 CN201310123163.4 申请日期 2013.04.10
申请人 大连理工大学 发明人 孔祥维;卢佳音;付海燕
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 大连理工大学专利中心 21200 代理人 关慧贞
主权项 一种面向图像检索的自适应哈希重排方法,其特征在于,采用先映射后排序的哈希重排方法,首先提取训练库中图像的高维视觉特征向量,并选择哈希方法将高维视觉特征映射成哈希码,根据训练库图像中各类哈希码不同维数间的相关性,为每类图像生成特定的类权重向量;再通过计算检索图像的哈希码与训练库中哈希码间的汉明距离,按由小到大的顺序返回检索结果;依据检索结果计算检索图像的自适应权重向量,利用检索图像的自适应权重向量构造加权汉明距离,并利用加权汉明距离对返回图像进行重排,得到更准确的检索结果;具体步骤如下:1)、选择检索图像q,确定图像库IM和训练库T;选择检索图像q,确定包含有N幅图像的图像库IM和包含M幅图像的训练库T,即IM={IM<sub>1</sub>,IM<sub>2</sub>,...,IM<sub>N</sub>},T={T<sub>1</sub>,T<sub>2</sub>,...,T<sub>M</sub>},其中:0<M<N;2)、提取图像的视觉特征,构成图像特征库GIM和训练特征库GT;对于图像库IM和训练库T中的每一幅图像,利用gist描述符提取图像的视觉特征,每一幅图像用一个512维的gist特征向量表示;图像库IM中所有图像的特征向量构成图像特征库GIM,GIM={GIM<sub>1</sub>,GIM<sub>2</sub>,...,GIM<sub>N</sub>},其中,GIM∈R<sup>N×512</sup>,R表示实数集,图像特征库中的每个特征向量和图像库中的每幅图像一一对应;训练库T中所有图像的特征向量构成训练特征库GT,GT={GT<sub>1</sub>,GT<sub>2</sub>,...,GT<sub>M</sub>},其中,GT∈R<sup>M×512</sup>,训练特征库中的每个特征向量和训练库中的每幅图像一一对应;检索图像q的特征向量为G<sub>q</sub>,G<sub>q</sub>∈R<sup>1×512</sup>;3)、分别对图像特征库和训练特征库中的每个特征向量生成维数为d的哈希码;利用已有的哈希方法,分别对图像特征库GIM和训练特征库GT中的每个特征向量生成维数为d的哈希码,分别表示为HI={HI<sub>1</sub>,HI<sub>2</sub>,...,HI<sub>N</sub>}和HT={HT<sub>1</sub>,HT<sub>2</sub>,...HT<sub>M</sub>},其中HI∈{0,1}<sup>N×d</sup>是N×d维的矩阵,矩阵的每个元素为0或者1;HT∈{0,1}<sup>M×d</sup>是M×d维的矩阵,矩阵的每个元素为0或者1;设训练库T中共包含k类图像,其中k为正整数,则训练库T的哈希码HT按其类别也可表示为<img file="FDA0000777481590000021.GIF" wi="684" he="109" />其中<img file="FDA0000777481590000022.GIF" wi="108" he="104" />表示训练库T中第i类所有图像的哈希码集合,这里i∈[1,k];以训练库的第i类为例,其哈希码集合可表示为<img file="FDA0000777481590000023.GIF" wi="760" he="116" />为<img file="FDA0000777481590000024.GIF" wi="207" he="100" />的矩阵,每个矩阵元素为0或1的哈希码,其中<img file="FDA0000777481590000025.GIF" wi="96" he="86" />为训练库T的第i类图像所包含的图像数目;4)、对训练库图像训练得到类权重向量ω<sub>c</sub>;通过比较训练库T中第i类哈希码<img file="FDA0000777481590000026.GIF" wi="105" he="99" />中的每个列向量,统计每列中值为0和1的个数,分别记为<img file="FDA0000777481590000027.GIF" wi="240" he="102" />和<img file="FDA0000777481590000028.GIF" wi="257" he="100" />表示训练库T中第i类哈希码<img file="FDA0000777481590000029.GIF" wi="102" he="101" />中第r维哈希码上0和1的个数,其中r∈[1,d];计算训练库T中第i类哈希码<img file="FDA00007774815900000210.GIF" wi="104" he="103" />对应的类权重向量<img file="FDA00007774815900000211.GIF" wi="120" he="88" />其中<img file="FDA00007774815900000212.GIF" wi="89" he="89" />是d维的向量,向量中的每个元素是大于0小于1的小数;令<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>max</mi><mo>_</mo><msub><mi>num</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>=</mo><mi>max</mi><mo>{</mo><mi>n</mi><mi>u</mi><mi>m</mi><msub><mn>0</mn><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>,</mo><mi>n</mi><mi>u</mi><mi>m</mi><msub><mn>1</mn><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>}</mo><mo>,</mo></mrow>]]></math><img file="FDA00007774815900000213.GIF" wi="1125" he="108" /></maths>表示第i类哈希码<img file="FDA00007774815900000214.GIF" wi="105" he="99" />中第r列上0或1的最大个数,则有:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>max</mi><mo>_</mo><msub><mi>num</mi><msub><mi>c</mi><mi>i</mi></msub></msub><mo>=</mo><mo>{</mo><mi>max</mi><mo>_</mo><msub><mi>num</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mn>1</mn></mrow></msub><mo>,</mo><mi>max</mi><mo>_</mo><msub><mi>num</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mn>2</mn></mrow></msub><mo>,</mo><mn>...</mn><mo>,</mo><mi>max</mi><mo>_</mo><msub><mi>num</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>d</mi></mrow></msub><mo>}</mo><mo>,</mo></mrow>]]></math><img file="FDA00007774815900000215.GIF" wi="1702" he="103" /></maths>表示<img file="FDA00007774815900000216.GIF" wi="98" he="103" />的各列上0或1的最大个数;令<img file="FDA00007774815900000217.GIF" wi="561" he="199" /><img file="FDA00007774815900000218.GIF" wi="120" he="107" />是d维的向量,向量中的每个元素是0.5到1之间的小数,表示训练库T中第i类哈希码间的差异性;根据第i类哈希码间的差异性<img file="FDA00007774815900000219.GIF" wi="148" he="103" />计算第i类哈希码第r维对应的权重向量:当<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>dp</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>&Element;</mo><mo>&lsqb;</mo><msub><mi>th</mi><mi>j</mi></msub><mo>,</mo><msub><mi>th</mi><mrow><mi>j</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>)</mo><mo>,</mo><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>...</mn><mi>L</mi></mrow>]]></math><img file="FDA00007774815900000220.GIF" wi="762" he="106" /></maths>时,<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>&omega;</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>=</mo><mfrac><msub><mi>&omega;</mi><msub><mi>s</mi><mi>j</mi></msub></msub><mrow><mi>&omega;</mi><mo>_</mo><mi>n</mi><mi>o</mi><mi>r</mi><mi>m</mi></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA00007774815900000221.GIF" wi="495" he="187" /></maths>其中,<img file="FDA00007774815900000222.GIF" wi="154" he="104" />为向量<img file="FDA00007774815900000223.GIF" wi="119" he="101" />的第r个元素;th={th<sub>1</sub>,...th<sub>L</sub>}为根据图像库预设的阈值向量,每个元素为0.5到1之间的小数;<img file="FDA0000777481590000031.GIF" wi="488" he="106" />为预设的权重向量,每个元素为0到1之间的小数;L为正整数,为预设权重的个数;<img file="FDA0000777481590000032.GIF" wi="123" he="93" />为第i类哈希码的权重向量<img file="FDA0000777481590000033.GIF" wi="97" he="89" />的第r个元素;<img file="FDA0000777481590000034.GIF" wi="537" he="203" />为归一化参数,实现权重向量的归一化;因此,训练库T中第i类哈希码<img file="FDA0000777481590000035.GIF" wi="112" he="109" />对应的权重向量为<img file="FDA0000777481590000036.GIF" wi="714" he="108" />其中i∈[1,k];5)、计算检索图像q的自适应权重向量;先计算检索图像q的哈希码h<sub>q</sub>和图像库中图像e的哈希码h<sub>e</sub>间的汉明距离<img file="FDA00007774815900000311.GIF" wi="525" he="98" />其中<img file="FDA00007774815900000312.GIF" wi="74" he="69" />为二进制哈希码间的异或运算,dist<sub>Hamm</sub>为0到d间的整数,按照dist<sub>Hamm</sub>由小到大将图像库中相应的图像进行排序,取出排在最前的TN幅图像,这里TN为正整数,并用集合SC表示这TN幅图像对应的类别集合,<img file="FDA0000777481590000037.GIF" wi="88" he="91" />表示这TN幅图像中属于第i类图像的个数,则检索图像q的自适应权重计算公式为<img file="FDA0000777481590000038.GIF" wi="525" he="231" />其中,<img file="FDA0000777481590000039.GIF" wi="91" he="86" />为训练库T中第i类哈希码<img file="FDA00007774815900000310.GIF" wi="109" he="101" />对应的权重向量;6)、构造自适应汉明距离,对检索结果进行重排;检索图像q的哈希码h<sub>q</sub>和图像库中图像e的哈希码h<sub>e</sub>间的自适应汉明距离定义为:<img file="FDA00007774815900000313.GIF" wi="843" he="113" />其中·表示向量间的Hadamard乘积,即两个向量对应的元素相乘;按照dist<sub>QAR</sub>由小到大将返回的图像进行重排,得到更准确的检索结果。
地址 116100 辽宁省大连市凌工路2号