发明名称 结合语义与视觉信息的长查询图像检索重排序算法
摘要 本发明公开了一种结合语义与视觉信息的长查询图像检索重排序方法,其特征是按如下步骤进行:1.输入长查询语句获得初始返回列表;2.构建视觉词典;3.将长查询语句进行分割,提取视觉概念;4.由视觉概念分别获得各自的初始返回列表;5.提取文本特征和视觉特征;6.建立概率模型;7.语义相关性估计;8.视觉相关性估计;9.结合语义与视觉的相关性估计;10.重排序获得重排序结果。本发明能够充分利用图像特征信息,从而有效提高图像检索重排序的准确性。
申请公布号 CN104077419A 申请公布日期 2014.10.01
申请号 CN201410346066.6 申请日期 2014.07.18
申请人 合肥工业大学 发明人 洪日昌;高鹏飞;汪萌;刘学亮;郝世杰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 安徽省合肥新安专利代理有限责任公司 34101 代理人 何梅生
主权项 一种结合语义与视觉信息的长查询图像检索重排序算法,其特征是按如下步骤进行:步骤1、在搜索引擎上,输入长查询语句Q进行图像检索,返回若干个长查询图像,选取所述长查询图像中排序为前N的长查询图像,由所述前N个长查询图像构成初始返回列表X={x<sub>1</sub>,x<sub>2</sub>,…,x<sub>u</sub>,…,x<sub>N</sub>},x<sub>u</sub>表示在所述初始返回列表中第u个长查询图像,u表示所述长查询图像x<sub>u</sub>在初始返回列表中的位置为第u个,u=0,1,…,N;步骤2、利用爬虫工具获得唯一问答对,并利用词性标注器收集所述唯一问答对中的动词和名词,并去除所述动词和名词里的停用词,从而构建视觉词典;步骤3、利用分割工具对所述长查询语句Q进行分割,获得若干语句块,并将每个语句块与所述视觉词典进行比较,选取包含有所述视觉词典中的动词或名词的语句块作为视觉概念;并由τ个视觉概念构成视觉概念集合C={q<sub>0</sub>,q<sub>1</sub>,…,q<sub>c</sub>,…,q<sub>τ‑1</sub>};q<sub>c</sub>表示在所述视觉概念集合C中第c个视觉概念,c=0,1,…,τ‑1;步骤4、在搜索引擎上,分别对所述视觉概念集合C中的每个视觉概念进行图像检索,返回与每个视觉概念相对应的若干个视觉概念图像,选取所述视觉概念图像中排序为前L的视觉概念图像,由所述前L个视觉概念图像构成样本集合D={(X<sub>0</sub>;q<sub>0</sub>),(X<sub>1</sub>;q<sub>1</sub>),…,(X<sub>c</sub>;q<sub>c</sub>),…,(X<sub>τ‑1</sub>;q<sub>τ‑1</sub>)};且X<sub>0</sub>=(x<sub>N+1</sub>,x<sub>N+2</sub>,…,x<sub>N+L</sub>),X<sub>1</sub>=(x<sub>N+L+1</sub>,x<sub>N+L+2</sub>,…,x<sub>N+2L</sub>),X<sub>c</sub>=(x<sub>N+cL+1</sub>,x<sub>N+cL+2</sub>,…,x<sub>N+cL+ζ</sub>,…,x<sub>N+(c+1)L</sub>),X<sub>τ‑1</sub>=(x<sub>N+(τ‑1)L+1</sub>,x<sub>N+(τ‑1)L+2</sub>,…,x<sub>N+τL</sub>),X<sub>c</sub>表示与所述第c个视觉概念q<sub>c</sub>相对应的视觉概念图像集合;x<sub>N+cL+ζ</sub>表示以所述第c个视觉概念q<sub>c</sub>进行图像检索时所返回的第ζ个视觉概念图像;步骤5、对所述N个长查询图像分别提取文本特征和视觉特征,获得长查询文本特征集合<img file="FDA0000540350240000011.GIF" wi="549" he="105" />和长查询视觉特征集合F={f<sub>1</sub>,f<sub>2</sub>,…,f<sub>u</sub>,…,f<sub>N</sub>};<img file="FDA0000540350240000012.GIF" wi="503" he="76" />表示第u个长查询图像x<sub>u</sub>的标签列表,并由n个标签构成,t<sub>μ</sub>表示第μ个标签;f<sub>u</sub>表示第u个长查询图像x<sub>u</sub>的视觉特征;对所述样本集合D提取视觉特征,分别获得与所述前L个视觉概念图像相对应的图像视觉特征;由所述图像视觉特征构成特征集合<img file="FDA0000540350240000013.GIF" wi="690" he="107" /><img file="FDA0000540350240000014.GIF" wi="924" he="107" />表示与所述第c个视觉概念q<sub>c</sub>相对应的视觉概念图像集合X<sub>c</sub>所提取的视觉特征;f<sub>N+cL+ζ</sub>表示以所述第c个视觉概念q<sub>c</sub>进行图像检索时所返回的第ζ个视觉概念图像x<sub>N+cL+ζ</sub>相对应的图像视觉特征;步骤6、利用式(1)建立概率模型Score(Q,x<sub>u</sub>):<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>Score</mi><mrow><mo>(</mo><mi>Q</mi><mo>,</mo><msub><mi>x</mi><mi>u</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>q</mi><mi>c</mi></msub><mo>&Element;</mo><mi>C</mi></mrow></munder><mi>P</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>|</mo><mi>Q</mi><mo>)</mo></mrow><mi>log</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>|</mo><msub><mi>x</mi><mi>u</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000021.GIF" wi="992" he="124" /></maths>式(1)中,P(q|<sub>c</sub>Q)表示第c个视觉概念q<sub>c</sub>对于所述长查询语句Q的重要程度,P(q<sub>c</sub>|x<sub>u</sub>)表示第c个视觉概念q<sub>c</sub>与所述第u个长查询图像x<sub>u</sub>的关联性;步骤7、语义相关性估计:步骤7.1、利用式(2)估计任意两个视觉概念之间的语义相关性:Sim(q<sub>i</sub>,q<sub>j</sub>)=Sim<sub>co</sub>(q<sub>i</sub>,q<sub>j</sub>)×Sim<sub>wd</sub>(q<sub>i</sub>,q<sub>j</sub>)×Sim<sub>wiki</sub>(q<sub>i</sub>,q<sub>j</sub>)   (2)式(2)中,Sim<sub>co</sub>(q<sub>i</sub>,q<sub>j</sub>)表示任意两个视觉概念q<sub>i</sub>和q<sub>j</sub>之间的共发频率相似度,i,j∈0,1,…,τ‑1,并有:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>Sim</mi><mi>co</mi></msub><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo><msub><mi>q</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><mi>max</mi><mrow><mo>(</mo><mi>log</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo><mi>log</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mi>log</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo><msub><mi>q</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>log</mi><mi>I</mi><mo>-</mo><mi>min</mi><mrow><mo>(</mo><mi>log</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo><mi>log</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000022.GIF" wi="1476" he="208" /></maths>式(3)中,I表示所述搜索引擎上所有的图像总数;f(q<sub>i</sub>)和f(q<sub>j</sub>)分别表示在所述搜索引擎上输入视觉概念q<sub>i</sub>和q<sub>j</sub>后分别返回的视觉概念图像总数;f(q<sub>i</sub>,q<sub>j</sub>)表示在所述搜索引擎上同时输入视觉概念q<sub>i</sub>和q<sub>j</sub>后返回的图像总数;式(2)中,Sim<sub>wd</sub>(q<sub>i</sub>,q<sub>j</sub>)表示通过WordNet词典工具获得的任意两个视觉概念q<sub>i</sub>和q<sub>j</sub>之间的相似度,并有:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>Sim</mi><mi>wd</mi></msub><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo><msub><mi>q</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>#</mo><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mo>#</mo><mrow><mo>(</mo><msub><mi>q</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><mo>#</mo><msub><mrow><mo>(</mo><msub><mi>words</mi><msub><mi>q</mi><mi>j</mi></msub></msub><mo>)</mo></mrow><mi>wd</mi></msub><mo>+</mo><mo>#</mo><msub><mrow><mo>(</mo><msub><mi>words</mi><msub><mi>q</mi><mi>i</mi></msub></msub><mo>)</mo></mrow><mi>wd</mi></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000023.GIF" wi="1161" he="197" /></maths>式(4)中,#(q<sub>i</sub>)表示使用视觉概念q<sub>j</sub>在所述WordNet词典中进行查询后,返回的查询结果中视觉概念q<sub>i</sub>出现的次数;#(q<sub>j</sub>)表示使用视觉概念q<sub>i</sub>在所述WordNet词典中进行查询后,返回的查询结果中视觉概念q<sub>j</sub>出现的次数;<img file="FDA0000540350240000024.GIF" wi="284" he="113" />表示使用视觉概念q<sub>j</sub>在所述WordNet词典中进行查询后,返回的查询结果的总字数;<img file="FDA0000540350240000025.GIF" wi="274" he="87" />表示使用视觉概念q<sub>i</sub>在所述WordNet词典中进行查询后,返回的查询结果的总字数;式(2)中,Sim<sub>wiki</sub>(q<sub>i</sub>,q<sub>j</sub>)表示通过维基百科获得的任意两个视觉概念q<sub>i</sub>和q<sub>j</sub>之间的相似度,并有:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>Sim</mi><mi>wiki</mi></msub><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo><msub><mi>q</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>#</mo><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mo>#</mo><mrow><mo>(</mo><msub><mi>q</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><mo>#</mo><msub><mrow><mo>(</mo><msub><mi>words</mi><msub><mi>q</mi><mi>j</mi></msub></msub><mo>)</mo></mrow><mi>wiki</mi></msub><mo>+</mo><mo>#</mo><msub><mrow><mo>(</mo><msub><mi>words</mi><msub><mi>q</mi><mi>i</mi></msub></msub><mo>)</mo></mrow><mi>wiki</mi></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000031.GIF" wi="1196" he="198" /></maths>式(5)中,#(q<sub>i</sub>)表示使用视觉概念q<sub>j</sub>在所述维基百科中进行查询后,返回的查询结果中视觉概念q<sub>i</sub>出现的次数;#(q<sub>j</sub>)表示使用视觉概念q<sub>i</sub>在所述维基百科中进行查询后,返回的查询结果中视觉概念q<sub>j</sub>出现的次数;<img file="FDA0000540350240000032.GIF" wi="288" he="108" />表示使用视觉概念q<sub>j</sub>在所述维基百科中进行查询后,返回的查询结果的总字数;<img file="FDA0000540350240000033.GIF" wi="277" he="102" />表示使用视觉概念q<sub>i</sub>在所述维基百科中进行查询后,返回的查询结果的总字数;步骤7.2、利用式(6)获得所述长查询语句Q与第c个视觉概念q<sub>c</sub>之间的语义相关性G(q<sub>c</sub>,Q):<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>G</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>&tau;</mi></mfrac><msub><mi>&Sigma;</mi><mrow><msub><mi>q</mi><mi>j</mi></msub><mo>&Element;</mo><mi>C</mi></mrow></msub><mi>Sim</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>,</mo><msub><mi>q</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000034.GIF" wi="854" he="132" /></maths>步骤7.3、利用式(7)获得第c个视觉概念q<sub>c</sub>与第u个长查询图像x<sub>u</sub>之间的相关性G(q<sub>c</sub>,x<sub>u</sub>):<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>G</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>,</mo><msub><mi>x</mi><mi>u</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mrow><msub><mi>t</mi><mi>&mu;</mi></msub><mo>&Element;</mo><msub><mi>T</mi><msub><mi>x</mi><mi>u</mi></msub></msub></mrow></msub><mi>Sim</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>,</mo><msub><mi>t</mi><mi>&mu;</mi></msub><mo>)</mo></mrow></mrow><mrow><mo>|</mo><msub><mi>T</mi><msub><mi>x</mi><mi>u</mi></msub></msub><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000035.GIF" wi="871" he="198" /></maths>式(7)中,<img file="FDA0000540350240000036.GIF" wi="86" he="107" />表示所述第u个长查询图像x<sub>u</sub>的标签列表<img file="FDA0000540350240000037.GIF" wi="60" he="81" />的基数;步骤8、视觉相关性估计:步骤8.1、利用式(8)获得所述长查询语句Q与第c个视觉概念q<sub>c</sub>之间的视觉相关性V(q<sub>c</sub>,Q):<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mi>V</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mo>|</mo><msub><mi>X</mi><mi>c</mi></msub><mo>|</mo><mo>&times;</mo><mo>|</mo><mi>X</mi><mo>|</mo></mrow></mfrac><munder><mi>&Sigma;</mi><mrow><msub><mi>f</mi><mrow><mi>N</mi><mo>+</mo><mi>cL</mi><mo>+</mo><mi>&zeta;</mi></mrow></msub><mo>&Element;</mo><msub><mi>F</mi><mi>Xc</mi></msub><mo>,</mo><msub><mi>f</mi><mi>u</mi></msub><mo>&Element;</mo><mi>F</mi></mrow></munder><mi>K</mi><mrow><mo>(</mo><msub><mi>f</mi><mrow><mi>N</mi><mo>+</mo><mi>cL</mi><mo>+</mo><mi>&zeta;</mi></mrow></msub><mo>,</mo><msub><mi>f</mi><mi>u</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000038.GIF" wi="1106" he="154" /></maths>式(8)中,|X|表示所述初始返回列表X的基数;|X<sub>c</sub>|表示所述与所述第c个视觉概念q<sub>c</sub>相对应的视觉概念图像集合X<sub>c</sub>的基数;K(f<sub>N+cL+ζ</sub>,f<sub>u</sub>)表示高斯相似函数,并有:K(f<sub>N+cL+ζ</sub>,f<sub>u</sub>)=exp(‑||f<sub>N+cL+ζ</sub>‑f<sub>u</sub>||<sup>2</sup>/δ<sup>2</sup>)   (9)式(9)中,δ为尺度参数;步骤8.2、利用式(10)将所述第c个视觉概念q<sub>c</sub>与第u个长查询图像x<sub>u</sub>之间的视觉相关性V(q<sub>c</sub>,x<sub>u</sub>)进一步分解:<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><mi>V</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>,</mo><msub><mi>x</mi><mi>u</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>&omega;</mi><mo>=</mo><mi>N</mi><mo>+</mo><mn>1</mn></mrow><mrow><mi>N</mi><mo>+</mo><mi>&tau;L</mi></mrow></munderover><mi>P</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>|</mo><msub><mi>x</mi><mi>&omega;</mi></msub><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>&omega;</mi></msub><mo>|</mo><msub><mi>x</mi><mi>u</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000041.GIF" wi="976" he="148" /></maths>式(10)中:x<sub>ω</sub>表示样本集合D中任意一个视觉概念图像;步骤8.3、基于马尔可夫随机游走算法,将所述N个长查询图像和τL个视觉概念图像看做节点,建立对称κ近邻图;则通过式(11)获得第φ个节点和第ψ个节点之间的连接权重W<sub>φψ</sub>:<img file="FDA0000540350240000042.GIF" wi="1142" he="172" />式(11)中,Nκ(φ)表示通过欧式距离计算的第ψ个节点的对称κ近邻图的索引集;Nκ(ψ)表示通过欧式距离计算的第φ个节点的对称κ近邻图的索引集;φ、ψ∈(0,1,…,N+τL);用A表示一步转移概率矩阵,所述一步转移概率矩阵A中的元素A<sub>ωu</sub>表示从第ω个节点转移到第u个节点的概率,A<sub>ωu</sub>=W<sub>ωu</sub>/Σ<sub>ψ</sub>W<sub>ωψ</sub>;则利用式(12)获得从第ω个节点出发经过s步转移在第u个节点处的概率P<sub>s|0</sub>(x<sub>u</sub>|x<sub>ω</sub>):P<sub>s|0</sub>(x<sub>u</sub>|x<sub>ω</sub>)=[A<sup>s</sup>]<sub>ωu</sub>   (12)利用式(13)获得以所述任意一个视觉概念图像x<sub>ω</sub>为起点经过s步停止在第u个长查询图像x<sub>u</sub>处的条件概率P<sub>0|s</sub>(x<sub>ω</sub>|x<sub>u</sub>):<maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><msub><mi>P</mi><mrow><mn>0</mn><mo>|</mo><mi>s</mi></mrow></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>&omega;</mi></msub><mo>|</mo><msub><mi>x</mi><mi>u</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>P</mi><mrow><mi>s</mi><mo>|</mo><mn>0</mn></mrow></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>u</mi></msub><mo>|</mo><msub><mi>x</mi><mi>&omega;</mi></msub><mo>)</mo></mrow><msub><mi>P</mi><mn>0</mn></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>&omega;</mi></msub><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mi>&psi;</mi></msub><msub><mi>P</mi><mrow><mi>s</mi><mo>|</mo><mn>0</mn></mrow></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>u</mi></msub><mo>|</mo><msub><mi>x</mi><mi>&psi;</mi></msub><mo>)</mo></mrow><msub><mi>P</mi><mn>0</mn></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>&psi;</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000043.GIF" wi="932" he="178" /></maths>利用P<sub>0</sub>(x<sub>ω</sub>)=P<sub>0</sub>(x<sub>ψ</sub>),将式(13)改写为:<maths num="0010" id="cmaths0010"><math><![CDATA[<mrow><msub><mi>P</mi><mrow><mn>0</mn><mo>|</mo><mi>s</mi></mrow></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>&omega;</mi></msub><mo>|</mo><msub><mi>x</mi><mi>u</mi></msub><mo>)</mo></mrow><mo>=</mo><mo>=</mo><mfrac><msub><mrow><mo>[</mo><msup><mi>A</mi><mi>s</mi></msup><mo>]</mo></mrow><mi>&omega;u</mi></msub><mrow><msub><mi>&Sigma;</mi><mi>&psi;</mi></msub><msub><mrow><mo>[</mo><msup><mi>A</mi><mi>s</mi></msup><mo>]</mo></mrow><mi>&psi;u</mi></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000044.GIF" wi="803" he="191" /></maths>步骤8.4、遍历所述样本集合D中的每一个视觉概念图像,获得任意一个视觉概念图像x<sub>ω</sub>与第c个视觉概念q<sub>c</sub>之间的相关性分数P(q<sub>c</sub>|x<sub>ω</sub>):<maths num="0011" id="cmaths0011"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>c</mi></msub><mo>|</mo><msub><mi>x</mi><mi>&omega;</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>Z</mi></mfrac><munder><mi>&Sigma;</mi><mrow><msub><mi>x</mi><mrow><mi>N</mi><mo>+</mo><mi>cL</mi><mo>+</mo><mi>&zeta;</mi></mrow></msub><mo>&Element;</mo><msub><mi>X</mi><mi>c</mi></msub></mrow></munder><msub><mi>P</mi><mrow><mn>0</mn><mo>|</mo><mi>s</mi></mrow></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>N</mi><mo>+</mo><mi>cL</mi><mo>+</mo><mi>&zeta;</mi></mrow></msub><mo>|</mo><msub><mi>x</mi><mi>&omega;</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000540350240000045.GIF" wi="1042" he="156" /></maths>式(11)中,<maths num="0012" id="cmaths0012"><math><![CDATA[<mrow><mi>Z</mi><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>q</mi><mi>c</mi></msub><mo>&Element;</mo><mi>C</mi></mrow></munder><munder><mi>&Sigma;</mi><mrow><msub><mi>x</mi><mrow><mi>N</mi><mo>+</mo><mi>cL</mi><mo>+</mo><mi>&zeta;</mi></mrow></msub><mo>&Element;</mo><msub><mi>X</mi><mi>c</mi></msub></mrow></munder><msub><mi>P</mi><mrow><mn>0</mn><mo>|</mo><mi>s</mi></mrow></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>N</mi><mo>+</mo><mi>cL</mi><mo>+</mo><mi>&zeta;</mi></mrow></msub><mo>|</mo><msub><mi>x</mi><mi>&omega;</mi></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000540350240000046.GIF" wi="636" he="136" /></maths>步骤9:结合语义与视觉的相关性估计:步骤9.1、利用式(6)和式(8),获得第c个视觉概念q<sub>c</sub>和长查询语句Q之间的最终相关分数P(q<sub>c</sub>|Q):P(q<sub>c</sub>|Q)=αV(q<sub>c</sub>,Q)+(1‑α)G(q<sub>c</sub>,Q)   (15)式(12)中,α表示权衡语义与视觉对所述最终相关分数P(q<sub>c</sub>|Q)重要程度的参数,α∈(0,1);步骤9.2、利用式(7)和式(10),获得第c个视觉概念q<sub>c</sub>和第u个长查询图像x<sub>u</sub>之间的最终相关分数P(q<sub>c</sub>|x<sub>u</sub>):P(q<sub>c</sub>|x<sub>u</sub>)=βV(q<sub>c</sub>,x<sub>u</sub>)+(1‑β)G(q<sub>c</sub>,x<sub>u</sub>)   (16)式(13)中,β表示权衡语义与视觉对所述最终相关分数P(q<sub>c</sub>|x<sub>u</sub>)重要程度的参数,β∈(0,1);步骤10:根据式(1)所获得的概率模型Score(Q,x<sub>u</sub>)对N个长查询图像集合X进行重排序,从而获得所述N个长查询图像的重排序结果。
地址 230009 安徽省合肥市包河区屯溪路193号