基于邻域与距离度量学的图像语义自动标注方法,申请号CN201410588442.2-传众专利搜索

发明名称	基于邻域与距离度量学的图像语义自动标注方法
摘要	本发明提供一种基于邻域与距离度量学的图像语义自动标注方法，包括通过引入变换矩阵，从训练集中随机取任意两幅图像求得距离度量；计算标注词的先验概率，对于训练集中的每个图像获取邻域，记录训练集中标注词出现与不出现的次数，计算条件概率；对于测试集中的每个图像获取邻域，通过计算图像系数得到标准词向量并输出。本发明无需事先确定标注词的个数比较现有技术智能化程度更高，标注结果更准确。而且，本发明的图像邻域完全是通过学所获得的距离度量得到的，精确度更高。
申请公布号	CN104317912A	申请公布日期	2015.01.28
申请号	CN201410588442.2	申请日期	2014.10.28
申请人	华中师范大学	发明人	金聪;金枢炜
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人	严彦
主权项	一种基于邻域与距离度量学习的图像语义自动标注方法，其特征在于：设训练集Tr为有标注词的图像集合{I<sub>1</sub>,I<sub>2</sub>,...,I<sub>N1</sub>}，N1为训练集Tr中图像个数，测试集Te为无标注词的图像集合{I<sub>1</sub>,I<sub>2</sub>,...,I<sub>N2</sub>}，N2为测试集Te中图像个数；任一幅图像I由M个视觉特征x<sup>1</sup>,x<sup>2</sup>,...,x<sup>M</sup>表示成M维向量I＝(x<sup>1</sup>,x<sup>2</sup>,...,x<sup>M</sup>)，L＝{k<sub>1</sub>,k<sub>2</sub>,...,k<sub>m</sub>}是标注词集合，每幅图像I∈Tr都与<img file="FDA0000595825400000012.GIF" wi="147" he="66" />对应，Y＝(y<sup>1</sup>,y<sup>2</sup>,...,y<sup>m</sup>)，Y称为图像I的标注词向量；y<sup>j</sup>＝1表示图像I有标注词k<sub>j</sub>，y<sup>j</sup>＝0表示图像I没有标注词k<sub>j</sub>，j的取值为1,2,…,m；训练集表示为Tr＝{(I<sub>u</sub>,Y<sub>u</sub>)\|u＝1,2,...N1}，<img file="FDA0000595825400000013.GIF" wi="464" he="87" /><img file="FDA0000595825400000014.GIF" wi="125" he="86" />表示第j个标注词k<sub>j</sub>属于图像I<sub>u</sub>，<img file="FDA0000595825400000015.GIF" wi="129" he="86" />表示第j个标注词k<sub>j</sub>不属于图像I<sub>u</sub>，Y<sub>u</sub>为图像I<sub>u</sub>的标注词向量；执行以下步骤，步骤一，从训练集中随机取任意两幅图像I<sub>u</sub>,I<sub>v</sub>∈Tr，求得距离度量Δ(I<sub>u</sub>,I<sub>v</sub>)，实现如下，令S＝A<sup>T</sup>A，其中A是变换矩阵；对于训练集中的任意两幅图像I<sub>u</sub>,I<sub>v</sub>∈Tr，它们之间的距离Δ(I<sub>u</sub>,I<sub>v</sub>)是Δ(I<sub>u</sub>,I<sub>v</sub>)＝(I<sub>u</sub>,I<sub>v</sub>)<sup>T</sup>S(I<sub>u</sub>,I<sub>v</sub>)＝(AI<sub>u</sub>,AI<sub>v</sub>)<sup>T</sup>(AI<sub>u</sub>,AI<sub>v</sub>)其中，S＝A<sup>T</sup>A是由变换矩阵A生成的度量矩阵，(I<sub>u</sub>,I<sub>v</sub>)<sup>T</sup>是图像I<sub>u</sub>与I<sub>v</sub>向量之间欧几里得距离的转置，AI<sub>u</sub>是A与I<sub>u</sub>的内积，AI<sub>v</sub>是A与I<sub>v</sub>的内积，(AI<sub>u</sub>,AI<sub>v</sub>)是计算两个内积AI<sub>u</sub>、AI<sub>v</sub>的欧几里得距离后所获得的向量，(I<sub>u</sub>,I<sub>v</sub>)<sup>T</sup>S(I<sub>u</sub>,I<sub>v</sub>)是(I<sub>u</sub>,I<sub>v</sub>)<sup>T</sup>、S和(I<sub>u</sub>,I<sub>v</sub>)的内积；图像I<sub>u</sub>选择训练集Tr中的另一图像I<sub>v</sub>作为自己近邻的概率P<sub>uv</sub>按下式计算，<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>P</mi><mi>uv</mi></msub><mo>=</mo><mfrac><mrow><mi>w</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>v</mi></msub><mo>)</mo></mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><msup><mrow><mo>\|</mo><mo>\|</mo><msub><mi>AI</mi><mi>u</mi></msub><mo>-</mo><msub><mi>AI</mi><mi>v</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow></mrow><mrow><munder><mi>Σ</mi><mrow><mi>k</mi><mo>&NotEqual;</mo><mi>u</mi></mrow></munder><mi>w</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>k</mi></msub><mo>)</mo></mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><msup><mrow><mo>\|</mo><mo>\|</mo><msub><mi>AI</mi><mi>u</mi></msub><mo>-</mo><msub><mi>AI</mi><mi>k</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000595825400000011.GIF" wi="909" he="261" /></maths>其中，w(I)＝P<sub>2</sub>(I)/P<sub>1</sub>(I)是待定向量，其中P<sub>1</sub>(I)和P<sub>2</sub>(I)分别是训练集Tr和测试集Te的概率密度函数，I<sub>k</sub>表示训练集Tr中图像I<sub>u</sub>以外的任意图像，则I<sub>u</sub>、I<sub>k</sub>相应的待定向量w(I<sub>v</sub>)＝P<sub>2</sub>(I<sub>v</sub>)/P<sub>1</sub>(I<sub>v</sub>)、w(I<sub>k</sub>)＝P<sub>2</sub>(I<sub>k</sub>)/P<sub>1</sub>(I<sub>k</sub>)；记训练集Tr中所有与I<sub>u</sub>具有相同标注词的图像集合为Ω<sub>u</sub>，则Ω<sub>u</sub>中的图像都是图像I<sub>u</sub>的近邻的概率P<sub>u</sub>是<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>P</mi><mi>u</mi></msub><mo>=</mo><munder><mi>Σ</mi><mrow><msub><mi>I</mi><mi>v</mi></msub><mo>&Element;</mo><msub><mi>Ω</mi><mi>u</mi></msub></mrow></munder><msub><mi>P</mi><mi>uv</mi></msub></mrow>]]></math><img file="FDA0000595825400000021.GIF" wi="344" he="148" /></maths>概率P<sub>u</sub>的加权均值f(A)如下，<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>u</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>N</mi><mn>1</mn></mrow></munderover><mi>w</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>)</mo></mrow><mi>log</mi><msub><mi>P</mi><mi>u</mi></msub></mrow>]]></math><img file="FDA0000595825400000022.GIF" wi="535" he="162" /></maths>其中，I<sub>u</sub>相应的待定向量w(I<sub>u</sub>)＝P<sub>2</sub>(I<sub>u</sub>)/P<sub>1</sub>(I<sub>u</sub>)；按下式计算f(A)的梯度<img file="FDA0000595825400000023.GIF" wi="99" he="133" /><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mfrac><mrow><mo>&PartialD;</mo><mi>f</mi></mrow><mrow><mo>&PartialD;</mo><mi>A</mi></mrow></mfrac><mo>=</mo><mn>2</mn><mi>A</mi><munderover><mi>Σ</mi><mrow><mi>u</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>N</mi><mn>2</mn></mrow></munderover><mi>w</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>)</mo></mrow><mrow><mo>(</mo><munder><mi>Σ</mi><mrow><mi>k</mi><mo>&NotEqual;</mo><mi>u</mi></mrow></munder><msub><mi>P</mi><mi>uk</mi></msub><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>-</mo><msub><mi>I</mi><mi>k</mi></msub><mo>)</mo></mrow><msup><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>-</mo><msub><mi>I</mi><mi>k</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><mo>-</mo><mfrac><mrow><munder><mi>Σ</mi><mrow><msub><mi>I</mi><mi>v</mi></msub><mo>&Element;</mo><msub><mi>Ω</mi><mi>u</mi></msub></mrow></munder><msub><mi>P</mi><mi>uv</mi></msub><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>-</mo><msub><mi>I</mi><mi>v</mi></msub><mo>)</mo></mrow><msup><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>-</mo><msub><mi>I</mi><mi>v</mi></msub><mo>)</mo></mrow><mi>T</mi></msup></mrow><mrow><munder><mi>Σ</mi><mrow><msub><mi>I</mi><mi>v</mi></msub><mo>&Element;</mo><msub><mi>Ω</mi><mi>u</mi></msub></mrow></munder><msub><mi>P</mi><mi>uv</mi></msub></mrow></mfrac><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000595825400000024.GIF" wi="1515" he="247" /></maths>利用梯度下降法求得变换矩阵A，由此得到图像距离Δ(I<sub>u</sub>,I<sub>v</sub>)；步骤二，对于标注词k<sub>j</sub>∈L和训练集Tr中的每个图像I<sub>u</sub>∈Tr，按照下式分别计算标注词的先验概率<img file="FDA0000595825400000027.GIF" wi="122" he="72" />和<img file="FDA0000595825400000028.GIF" wi="129" he="73" />：<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mo>+</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mn>1</mn><mo>+</mo><munderover><mi>Σ</mi><mrow><mi>u</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>N</mi><mn>1</mn></mrow></munderover><msubsup><mi>y</mi><mi>u</mi><mi>j</mi></msubsup></mrow><mrow><mn>1</mn><mo>+</mo><mi>N</mi><mn>1</mn></mrow></mfrac><mo>,</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mo>-</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mo>+</mo></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000595825400000025.GIF" wi="878" he="210" /></maths>其中，<img file="FDA0000595825400000029.GIF" wi="66" he="88" />和<img file="FDA00005958254000000210.GIF" wi="63" he="83" />分别表示标注词k<sub>j</sub>出现或不出现；步骤三，对于训练集Tr中的每个图像I<sub>u</sub>∈Tr，利用步骤一所获得的距离度量Δ(I<sub>u</sub>,I<sub>v</sub>)，获得I<sub>u</sub>的邻域δ(I<sub>u</sub>)，实现如下，δ(I<sub>u</sub>)＝{I<sub>v</sub>\|Δ(I<sub>u</sub>,I<sub>v</sub>)≤τ,I<sub>v</sub>∈Tr}其中，τ是预设的邻域半径，τ＞0；步骤四，对于标注词k<sub>j</sub>∈L，记录训练集Tr中标注词k<sub>j</sub>出现与不出现的次数a<sub>j</sub>和b<sub>j</sub>；步骤五，计算条件概率<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><msub><mi>k</mi><mi>j</mi></msub></msub><mo>\|</mo><msubsup><mi>k</mi><mi>j</mi><mo>+</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mn>1</mn><mo>+</mo><msub><mi>a</mi><mi>j</mi></msub></mrow><mrow><mi>M</mi><mo>+</mo><mi>Σ</mi><msub><mi>a</mi><mi>j</mi></msub></mrow></mfrac><mo>,</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><msub><mi>k</mi><mi>j</mi></msub></msub><mo>\|</mo><msubsup><mi>k</mi><mi>j</mi><mo>-</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mn>1</mn><mo>+</mo><msub><mi>b</mi><mi>j</mi></msub></mrow><mrow><mi>M</mi><mo>+</mo><mi>Σ</mi><msub><mi>b</mi><mi>j</mi></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000595825400000026.GIF" wi="1147" he="180" /></maths>其中，<img file="FDA00005958254000000211.GIF" wi="65" he="79" />是训练集Tr中在图像I<sub>u</sub>的邻域δ(I<sub>u</sub>)内有标注词k<sub>j</sub>的图像的个数，M是图像视觉特征的个数；步骤六，对于测试集Te中的任意图像I<sub>u</sub>∈Te，获得图像I<sub>u</sub>的邻域δ(I<sub>u</sub>)，实现如下，首先，对于测试集中任意图像I<sub>u</sub>∈Te，利用步骤一所获得的距离度量Δ(I<sub>u</sub>,I<sub>v</sub>)，获得I<sub>u</sub>的邻域δ(I<sub>u</sub>)，实现如下，δ(I<sub>u</sub>)＝{I<sub>v</sub>\|Δ(I<sub>u</sub>,I<sub>v</sub>)≤τ,I<sub>v</sub>∈Te}其中，τ是预设的邻域半径，τ＞0，I<sub>v</sub>表示测试集Te中图像I<sub>u</sub>以外的任意图像；步骤七，通过计算图像系数得到标准词向量并输出，实现如下，对于每个标注词k<sub>j</sub>∈L，计算测试集中任一图像I<sub>u</sub>∈Te的邻域δ(I<sub>u</sub>)内所包含的图像中有标注词k<sub>j</sub>的图像系数<img file="FDA0000595825400000037.GIF" wi="177" he="63" />如果<img file="FDA0000595825400000036.GIF" wi="376" he="81" />则<img file="FDA0000595825400000038.GIF" wi="123" he="67" />，其中│δ(I<sub>u</sub>)│表示邻域δ(I<sub>u</sub>)内所有图像的数目；否则，如果<img file="FDA0000595825400000039.GIF" wi="252" he="69" />则<img file="FDA00005958254000000310.GIF" wi="133" he="72" />；否则，按照下式计算<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mi>ω</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>,</mo><msub><mi>k</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mo>+</mo></msubsup><mo>\|</mo><msub><mi>C</mi><msub><mi>k</mi><mi>j</mi></msub></msub><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mrow><mi>z</mi><mo>&Element;</mo><mo>{</mo><mo>+</mo><mo>,</mo><mo>-</mo><mo>}</mo></mrow></munder><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mi>z</mi></msubsup><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><msub><mi>k</mi><mi>j</mi></msub></msub><mo>\|</mo><msubsup><mi>k</mi><mi>j</mi><mi>z</mi></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000595825400000031.GIF" wi="1117" he="157" /></maths>其中，<img file="FDA00005958254000000311.GIF" wi="207" he="92" />为计算获得的后验概率，如果新计算的ω(I<sub>u</sub>,k<sub>j</sub>)＞λ，则<img file="FDA00005958254000000312.GIF" wi="154" he="75" />否则<img file="FDA00005958254000000313.GIF" wi="163" he="82" />λ为预设阈值，λ∈(0,1)。
地址	430079 湖北省武汉市洪山区珞瑜路152号