面向图像检索的自适应哈希重排方法,申请号CN201310123163.4-传众专利搜索

发明名称	面向图像检索的自适应哈希重排方法
摘要	本发明面向图像检索的自适应哈希重排方法，属于图像检索技术领域，涉及到利用图像哈希方法进行基于内容的图像检索。该方法采用先映射后排序的哈希重排方法，先提取训练库中图像的高维视觉特征向量，选择适当的哈希方法将高维视觉特征映射成哈希码，为每类图像生成特定的类权重向量；计算检索图像的哈希码与训练库中哈希码间的汉明距离，按由小到大的顺序返回检索结果；依据检索结果计算检索图像的自适应权重向量，利用检索图像的自适应权重向量构造加权汉明距离，并利用加权汉明距离对返回图像进行重排，得到更准确的检索结果；该方法根据不同的检索图像计算特定的权重，具有一般性，且在没有增加计算复杂度的同时明显提高了检索效果。
申请公布号	CN103226585B	申请公布日期	2015.10.28
申请号	CN201310123163.4	申请日期	2013.04.10
申请人	大连理工大学	发明人	孔祥维;卢佳音;付海燕
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	大连理工大学专利中心 21200	代理人	关慧贞
主权项	一种面向图像检索的自适应哈希重排方法，其特征在于，采用先映射后排序的哈希重排方法，首先提取训练库中图像的高维视觉特征向量，并选择哈希方法将高维视觉特征映射成哈希码，根据训练库图像中各类哈希码不同维数间的相关性，为每类图像生成特定的类权重向量；再通过计算检索图像的哈希码与训练库中哈希码间的汉明距离，按由小到大的顺序返回检索结果；依据检索结果计算检索图像的自适应权重向量，利用检索图像的自适应权重向量构造加权汉明距离，并利用加权汉明距离对返回图像进行重排，得到更准确的检索结果；具体步骤如下：1)、选择检索图像q，确定图像库IM和训练库T；选择检索图像q，确定包含有N幅图像的图像库IM和包含M幅图像的训练库T，即IM＝{IM<sub>1</sub>,IM<sub>2</sub>,...,IM<sub>N</sub>}，T＝{T<sub>1</sub>,T<sub>2</sub>,...,T<sub>M</sub>}，其中：0＜M＜N；2)、提取图像的视觉特征，构成图像特征库GIM和训练特征库GT；对于图像库IM和训练库T中的每一幅图像，利用gist描述符提取图像的视觉特征，每一幅图像用一个512维的gist特征向量表示；图像库IM中所有图像的特征向量构成图像特征库GIM，GIM＝{GIM<sub>1</sub>,GIM<sub>2</sub>,...,GIM<sub>N</sub>}，其中，GIM∈R<sup>N×512</sup>，R表示实数集，图像特征库中的每个特征向量和图像库中的每幅图像一一对应；训练库T中所有图像的特征向量构成训练特征库GT，GT＝{GT<sub>1</sub>,GT<sub>2</sub>,...,GT<sub>M</sub>}，其中，GT∈R<sup>M×512</sup>，训练特征库中的每个特征向量和训练库中的每幅图像一一对应；检索图像q的特征向量为G<sub>q</sub>，G<sub>q</sub>∈R<sup>1×512</sup>；3)、分别对图像特征库和训练特征库中的每个特征向量生成维数为d的哈希码；利用已有的哈希方法，分别对图像特征库GIM和训练特征库GT中的每个特征向量生成维数为d的哈希码，分别表示为HI＝{HI<sub>1</sub>,HI<sub>2</sub>,...,HI<sub>N</sub>}和HT＝{HT<sub>1</sub>,HT<sub>2</sub>,...HT<sub>M</sub>}，其中HI∈{0,1}<sup>N×d</sup>是N×d维的矩阵，矩阵的每个元素为0或者1；HT∈{0,1}<sup>M×d</sup>是M×d维的矩阵，矩阵的每个元素为0或者1；设训练库T中共包含k类图像，其中k为正整数，则训练库T的哈希码HT按其类别也可表示为<img file="FDA0000777481590000021.GIF" wi="684" he="109" />其中<img file="FDA0000777481590000022.GIF" wi="108" he="104" />表示训练库T中第i类所有图像的哈希码集合，这里i∈[1,k]；以训练库的第i类为例，其哈希码集合可表示为<img file="FDA0000777481590000023.GIF" wi="760" he="116" />为<img file="FDA0000777481590000024.GIF" wi="207" he="100" />的矩阵，每个矩阵元素为0或1的哈希码，其中<img file="FDA0000777481590000025.GIF" wi="96" he="86" />为训练库T的第i类图像所包含的图像数目；4)、对训练库图像训练得到类权重向量ω<sub>c</sub>；通过比较训练库T中第i类哈希码<img file="FDA0000777481590000026.GIF" wi="105" he="99" />中的每个列向量，统计每列中值为0和1的个数，分别记为<img file="FDA0000777481590000027.GIF" wi="240" he="102" />和<img file="FDA0000777481590000028.GIF" wi="257" he="100" />表示训练库T中第i类哈希码<img file="FDA0000777481590000029.GIF" wi="102" he="101" />中第r维哈希码上0和1的个数，其中r∈[1,d]；计算训练库T中第i类哈希码<img file="FDA00007774815900000210.GIF" wi="104" he="103" />对应的类权重向量<img file="FDA00007774815900000211.GIF" wi="120" he="88" />其中<img file="FDA00007774815900000212.GIF" wi="89" he="89" />是d维的向量，向量中的每个元素是大于0小于1的小数；令<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>max</mi><mo>_</mo><msub><mi>num</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>=</mo><mi>max</mi><mo>{</mo><mi>n</mi><mi>u</mi><mi>m</mi><msub><mn>0</mn><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>,</mo><mi>n</mi><mi>u</mi><mi>m</mi><msub><mn>1</mn><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>}</mo><mo>,</mo></mrow>]]></math><img file="FDA00007774815900000213.GIF" wi="1125" he="108" /></maths>表示第i类哈希码<img file="FDA00007774815900000214.GIF" wi="105" he="99" />中第r列上0或1的最大个数，则有：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>max</mi><mo>_</mo><msub><mi>num</mi><msub><mi>c</mi><mi>i</mi></msub></msub><mo>=</mo><mo>{</mo><mi>max</mi><mo>_</mo><msub><mi>num</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mn>1</mn></mrow></msub><mo>,</mo><mi>max</mi><mo>_</mo><msub><mi>num</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mn>2</mn></mrow></msub><mo>,</mo><mn>...</mn><mo>,</mo><mi>max</mi><mo>_</mo><msub><mi>num</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>d</mi></mrow></msub><mo>}</mo><mo>,</mo></mrow>]]></math><img file="FDA00007774815900000215.GIF" wi="1702" he="103" /></maths>表示<img file="FDA00007774815900000216.GIF" wi="98" he="103" />的各列上0或1的最大个数；令<img file="FDA00007774815900000217.GIF" wi="561" he="199" /><img file="FDA00007774815900000218.GIF" wi="120" he="107" />是d维的向量，向量中的每个元素是0.5到1之间的小数，表示训练库T中第i类哈希码间的差异性；根据第i类哈希码间的差异性<img file="FDA00007774815900000219.GIF" wi="148" he="103" />计算第i类哈希码第r维对应的权重向量：当<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>dp</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>&Element;</mo><mo>[</mo><msub><mi>th</mi><mi>j</mi></msub><mo>,</mo><msub><mi>th</mi><mrow><mi>j</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>)</mo><mo>,</mo><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>...</mn><mi>L</mi></mrow>]]></math><img file="FDA00007774815900000220.GIF" wi="762" he="106" /></maths>时，<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>ω</mi><mrow><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mi>r</mi></mrow></msub><mo>=</mo><mfrac><msub><mi>ω</mi><msub><mi>s</mi><mi>j</mi></msub></msub><mrow><mi>ω</mi><mo>_</mo><mi>n</mi><mi>o</mi><mi>r</mi><mi>m</mi></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA00007774815900000221.GIF" wi="495" he="187" /></maths>其中，<img file="FDA00007774815900000222.GIF" wi="154" he="104" />为向量<img file="FDA00007774815900000223.GIF" wi="119" he="101" />的第r个元素；th＝{th<sub>1</sub>,...th<sub>L</sub>}为根据图像库预设的阈值向量，每个元素为0.5到1之间的小数；<img file="FDA0000777481590000031.GIF" wi="488" he="106" />为预设的权重向量，每个元素为0到1之间的小数；L为正整数，为预设权重的个数；<img file="FDA0000777481590000032.GIF" wi="123" he="93" />为第i类哈希码的权重向量<img file="FDA0000777481590000033.GIF" wi="97" he="89" />的第r个元素；<img file="FDA0000777481590000034.GIF" wi="537" he="203" />为归一化参数，实现权重向量的归一化；因此，训练库T中第i类哈希码<img file="FDA0000777481590000035.GIF" wi="112" he="109" />对应的权重向量为<img file="FDA0000777481590000036.GIF" wi="714" he="108" />其中i∈[1,k]；5)、计算检索图像q的自适应权重向量；先计算检索图像q的哈希码h<sub>q</sub>和图像库中图像e的哈希码h<sub>e</sub>间的汉明距离<img file="FDA00007774815900000311.GIF" wi="525" he="98" />其中<img file="FDA00007774815900000312.GIF" wi="74" he="69" />为二进制哈希码间的异或运算，dist<sub>Hamm</sub>为0到d间的整数，按照dist<sub>Hamm</sub>由小到大将图像库中相应的图像进行排序，取出排在最前的TN幅图像，这里TN为正整数，并用集合SC表示这TN幅图像对应的类别集合，<img file="FDA0000777481590000037.GIF" wi="88" he="91" />表示这TN幅图像中属于第i类图像的个数，则检索图像q的自适应权重计算公式为<img file="FDA0000777481590000038.GIF" wi="525" he="231" />其中，<img file="FDA0000777481590000039.GIF" wi="91" he="86" />为训练库T中第i类哈希码<img file="FDA00007774815900000310.GIF" wi="109" he="101" />对应的权重向量；6)、构造自适应汉明距离，对检索结果进行重排；检索图像q的哈希码h<sub>q</sub>和图像库中图像e的哈希码h<sub>e</sub>间的自适应汉明距离定义为：<img file="FDA00007774815900000313.GIF" wi="843" he="113" />其中·表示向量间的Hadamard乘积，即两个向量对应的元素相乘；按照dist<sub>QAR</sub>由小到大将返回的图像进行重排，得到更准确的检索结果。
地址	116100 辽宁省大连市凌工路2号