发明名称 基于邻域与距离度量学的图像语义自动标注方法
摘要 本发明提供一种基于邻域与距离度量学的图像语义自动标注方法,包括通过引入变换矩阵,从训练集中随机取任意两幅图像求得距离度量;计算标注词的先验概率,对于训练集中的每个图像获取邻域,记录训练集中标注词出现与不出现的次数,计算条件概率;对于测试集中的每个图像获取邻域,通过计算图像系数得到标准词向量并输出。本发明无需事先确定标注词的个数比较现有技术智能化程度更高,标注结果更准确。而且,本发明的图像邻域完全是通过学所获得的距离度量得到的,精确度更高。
申请公布号 CN104317912A 申请公布日期 2015.01.28
申请号 CN201410588442.2 申请日期 2014.10.28
申请人 华中师范大学 发明人 金聪;金枢炜
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 严彦
主权项 一种基于邻域与距离度量学习的图像语义自动标注方法,其特征在于:设训练集Tr为有标注词的图像集合{I<sub>1</sub>,I<sub>2</sub>,...,I<sub>N1</sub>},N1为训练集Tr中图像个数,测试集Te为无标注词的图像集合{I<sub>1</sub>,I<sub>2</sub>,...,I<sub>N2</sub>},N2为测试集Te中图像个数;任一幅图像I由M个视觉特征x<sup>1</sup>,x<sup>2</sup>,...,x<sup>M</sup>表示成M维向量I=(x<sup>1</sup>,x<sup>2</sup>,...,x<sup>M</sup>),L={k<sub>1</sub>,k<sub>2</sub>,...,k<sub>m</sub>}是标注词集合,每幅图像I∈Tr都与<img file="FDA0000595825400000012.GIF" wi="147" he="66" />对应,Y=(y<sup>1</sup>,y<sup>2</sup>,...,y<sup>m</sup>),Y称为图像I的标注词向量;y<sup>j</sup>=1表示图像I有标注词k<sub>j</sub>,y<sup>j</sup>=0表示图像I没有标注词k<sub>j</sub>,j的取值为1,2,…,m;训练集表示为Tr={(I<sub>u</sub>,Y<sub>u</sub>)|u=1,2,...N1},<img file="FDA0000595825400000013.GIF" wi="464" he="87" /><img file="FDA0000595825400000014.GIF" wi="125" he="86" />表示第j个标注词k<sub>j</sub>属于图像I<sub>u</sub>,<img file="FDA0000595825400000015.GIF" wi="129" he="86" />表示第j个标注词k<sub>j</sub>不属于图像I<sub>u</sub>,Y<sub>u</sub>为图像I<sub>u</sub>的标注词向量;执行以下步骤,步骤一,从训练集中随机取任意两幅图像I<sub>u</sub>,I<sub>v</sub>∈Tr,求得距离度量Δ(I<sub>u</sub>,I<sub>v</sub>),实现如下,令S=A<sup>T</sup>A,其中A是变换矩阵;对于训练集中的任意两幅图像I<sub>u</sub>,I<sub>v</sub>∈Tr,它们之间的距离Δ(I<sub>u</sub>,I<sub>v</sub>)是Δ(I<sub>u</sub>,I<sub>v</sub>)=(I<sub>u</sub>,I<sub>v</sub>)<sup>T</sup>S(I<sub>u</sub>,I<sub>v</sub>)=(AI<sub>u</sub>,AI<sub>v</sub>)<sup>T</sup>(AI<sub>u</sub>,AI<sub>v</sub>)其中,S=A<sup>T</sup>A是由变换矩阵A生成的度量矩阵,(I<sub>u</sub>,I<sub>v</sub>)<sup>T</sup>是图像I<sub>u</sub>与I<sub>v</sub>向量之间欧几里得距离的转置,AI<sub>u</sub>是A与I<sub>u</sub>的内积,AI<sub>v</sub>是A与I<sub>v</sub>的内积,(AI<sub>u</sub>,AI<sub>v</sub>)是计算两个内积AI<sub>u</sub>、AI<sub>v</sub>的欧几里得距离后所获得的向量,(I<sub>u</sub>,I<sub>v</sub>)<sup>T</sup>S(I<sub>u</sub>,I<sub>v</sub>)是(I<sub>u</sub>,I<sub>v</sub>)<sup>T</sup>、S和(I<sub>u</sub>,I<sub>v</sub>)的内积;图像I<sub>u</sub>选择训练集Tr中的另一图像I<sub>v</sub>作为自己近邻的概率P<sub>uv</sub>按下式计算,<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>P</mi><mi>uv</mi></msub><mo>=</mo><mfrac><mrow><mi>w</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>v</mi></msub><mo>)</mo></mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>AI</mi><mi>u</mi></msub><mo>-</mo><msub><mi>AI</mi><mi>v</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow></mrow><mrow><munder><mi>&Sigma;</mi><mrow><mi>k</mi><mo>&NotEqual;</mo><mi>u</mi></mrow></munder><mi>w</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>k</mi></msub><mo>)</mo></mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>AI</mi><mi>u</mi></msub><mo>-</mo><msub><mi>AI</mi><mi>k</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000595825400000011.GIF" wi="909" he="261" /></maths>其中,w(I)=P<sub>2</sub>(I)/P<sub>1</sub>(I)是待定向量,其中P<sub>1</sub>(I)和P<sub>2</sub>(I)分别是训练集Tr和测试集Te的概率密度函数,I<sub>k</sub>表示训练集Tr中图像I<sub>u</sub>以外的任意图像,则I<sub>u</sub>、I<sub>k</sub>相应的待定向量w(I<sub>v</sub>)=P<sub>2</sub>(I<sub>v</sub>)/P<sub>1</sub>(I<sub>v</sub>)、w(I<sub>k</sub>)=P<sub>2</sub>(I<sub>k</sub>)/P<sub>1</sub>(I<sub>k</sub>);记训练集Tr中所有与I<sub>u</sub>具有相同标注词的图像集合为Ω<sub>u</sub>,则Ω<sub>u</sub>中的图像都是图像I<sub>u</sub>的近邻的概率P<sub>u</sub>是<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>P</mi><mi>u</mi></msub><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>I</mi><mi>v</mi></msub><mo>&Element;</mo><msub><mi>&Omega;</mi><mi>u</mi></msub></mrow></munder><msub><mi>P</mi><mi>uv</mi></msub></mrow>]]></math><img file="FDA0000595825400000021.GIF" wi="344" he="148" /></maths>概率P<sub>u</sub>的加权均值f(A)如下,<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>u</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>N</mi><mn>1</mn></mrow></munderover><mi>w</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>)</mo></mrow><mi>log</mi><msub><mi>P</mi><mi>u</mi></msub></mrow>]]></math><img file="FDA0000595825400000022.GIF" wi="535" he="162" /></maths>其中,I<sub>u</sub>相应的待定向量w(I<sub>u</sub>)=P<sub>2</sub>(I<sub>u</sub>)/P<sub>1</sub>(I<sub>u</sub>);按下式计算f(A)的梯度<img file="FDA0000595825400000023.GIF" wi="99" he="133" /><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mfrac><mrow><mo>&PartialD;</mo><mi>f</mi></mrow><mrow><mo>&PartialD;</mo><mi>A</mi></mrow></mfrac><mo>=</mo><mn>2</mn><mi>A</mi><munderover><mi>&Sigma;</mi><mrow><mi>u</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>N</mi><mn>2</mn></mrow></munderover><mi>w</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>)</mo></mrow><mrow><mo>(</mo><munder><mi>&Sigma;</mi><mrow><mi>k</mi><mo>&NotEqual;</mo><mi>u</mi></mrow></munder><msub><mi>P</mi><mi>uk</mi></msub><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>-</mo><msub><mi>I</mi><mi>k</mi></msub><mo>)</mo></mrow><msup><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>-</mo><msub><mi>I</mi><mi>k</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><mo>-</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><msub><mi>I</mi><mi>v</mi></msub><mo>&Element;</mo><msub><mi>&Omega;</mi><mi>u</mi></msub></mrow></munder><msub><mi>P</mi><mi>uv</mi></msub><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>-</mo><msub><mi>I</mi><mi>v</mi></msub><mo>)</mo></mrow><msup><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>-</mo><msub><mi>I</mi><mi>v</mi></msub><mo>)</mo></mrow><mi>T</mi></msup></mrow><mrow><munder><mi>&Sigma;</mi><mrow><msub><mi>I</mi><mi>v</mi></msub><mo>&Element;</mo><msub><mi>&Omega;</mi><mi>u</mi></msub></mrow></munder><msub><mi>P</mi><mi>uv</mi></msub></mrow></mfrac><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000595825400000024.GIF" wi="1515" he="247" /></maths>利用梯度下降法求得变换矩阵A,由此得到图像距离Δ(I<sub>u</sub>,I<sub>v</sub>);步骤二,对于标注词k<sub>j</sub>∈L和训练集Tr中的每个图像I<sub>u</sub>∈Tr,按照下式分别计算标注词的先验概率<img file="FDA0000595825400000027.GIF" wi="122" he="72" />和<img file="FDA0000595825400000028.GIF" wi="129" he="73" />:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mo>+</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mn>1</mn><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>u</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>N</mi><mn>1</mn></mrow></munderover><msubsup><mi>y</mi><mi>u</mi><mi>j</mi></msubsup></mrow><mrow><mn>1</mn><mo>+</mo><mi>N</mi><mn>1</mn></mrow></mfrac><mo>,</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mo>-</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mo>+</mo></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000595825400000025.GIF" wi="878" he="210" /></maths>其中,<img file="FDA0000595825400000029.GIF" wi="66" he="88" />和<img file="FDA00005958254000000210.GIF" wi="63" he="83" />分别表示标注词k<sub>j</sub>出现或不出现;步骤三,对于训练集Tr中的每个图像I<sub>u</sub>∈Tr,利用步骤一所获得的距离度量Δ(I<sub>u</sub>,I<sub>v</sub>),获得I<sub>u</sub>的邻域δ(I<sub>u</sub>),实现如下,δ(I<sub>u</sub>)={I<sub>v</sub>|Δ(I<sub>u</sub>,I<sub>v</sub>)≤τ,I<sub>v</sub>∈Tr}其中,τ是预设的邻域半径,τ>0;步骤四,对于标注词k<sub>j</sub>∈L,记录训练集Tr中标注词k<sub>j</sub>出现与不出现的次数a<sub>j</sub>和b<sub>j</sub>;步骤五,计算条件概率<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><msub><mi>k</mi><mi>j</mi></msub></msub><mo>|</mo><msubsup><mi>k</mi><mi>j</mi><mo>+</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mn>1</mn><mo>+</mo><msub><mi>a</mi><mi>j</mi></msub></mrow><mrow><mi>M</mi><mo>+</mo><mi>&Sigma;</mi><msub><mi>a</mi><mi>j</mi></msub></mrow></mfrac><mo>,</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><msub><mi>k</mi><mi>j</mi></msub></msub><mo>|</mo><msubsup><mi>k</mi><mi>j</mi><mo>-</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mn>1</mn><mo>+</mo><msub><mi>b</mi><mi>j</mi></msub></mrow><mrow><mi>M</mi><mo>+</mo><mi>&Sigma;</mi><msub><mi>b</mi><mi>j</mi></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000595825400000026.GIF" wi="1147" he="180" /></maths>其中,<img file="FDA00005958254000000211.GIF" wi="65" he="79" />是训练集Tr中在图像I<sub>u</sub>的邻域δ(I<sub>u</sub>)内有标注词k<sub>j</sub>的图像的个数,M是图像视觉特征的个数;步骤六,对于测试集Te中的任意图像I<sub>u</sub>∈Te,获得图像I<sub>u</sub>的邻域δ(I<sub>u</sub>),实现如下,首先,对于测试集中任意图像I<sub>u</sub>∈Te,利用步骤一所获得的距离度量Δ(I<sub>u</sub>,I<sub>v</sub>),获得I<sub>u</sub>的邻域δ(I<sub>u</sub>),实现如下,δ(I<sub>u</sub>)={I<sub>v</sub>|Δ(I<sub>u</sub>,I<sub>v</sub>)≤τ,I<sub>v</sub>∈Te}其中,τ是预设的邻域半径,τ>0,I<sub>v</sub>表示测试集Te中图像I<sub>u</sub>以外的任意图像;步骤七,通过计算图像系数得到标准词向量并输出,实现如下,对于每个标注词k<sub>j</sub>∈L,计算测试集中任一图像I<sub>u</sub>∈Te的邻域δ(I<sub>u</sub>)内所包含的图像中有标注词k<sub>j</sub>的图像系数<img file="FDA0000595825400000037.GIF" wi="177" he="63" />如果<img file="FDA0000595825400000036.GIF" wi="376" he="81" />则<img file="FDA0000595825400000038.GIF" wi="123" he="67" />,其中│δ(I<sub>u</sub>)│表示邻域δ(I<sub>u</sub>)内所有图像的数目;否则,如果<img file="FDA0000595825400000039.GIF" wi="252" he="69" />则<img file="FDA00005958254000000310.GIF" wi="133" he="72" />;否则,按照下式计算<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mi>&omega;</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>u</mi></msub><mo>,</mo><msub><mi>k</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mo>+</mo></msubsup><mo>|</mo><msub><mi>C</mi><msub><mi>k</mi><mi>j</mi></msub></msub><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mrow><mi>z</mi><mo>&Element;</mo><mo>{</mo><mo>+</mo><mo>,</mo><mo>-</mo><mo>}</mo></mrow></munder><mi>P</mi><mrow><mo>(</mo><msubsup><mi>k</mi><mi>j</mi><mi>z</mi></msubsup><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><msub><mi>k</mi><mi>j</mi></msub></msub><mo>|</mo><msubsup><mi>k</mi><mi>j</mi><mi>z</mi></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000595825400000031.GIF" wi="1117" he="157" /></maths>其中,<img file="FDA00005958254000000311.GIF" wi="207" he="92" />为计算获得的后验概率,如果新计算的ω(I<sub>u</sub>,k<sub>j</sub>)>λ,则<img file="FDA00005958254000000312.GIF" wi="154" he="75" />否则<img file="FDA00005958254000000313.GIF" wi="163" he="82" />λ为预设阈值,λ∈(0,1)。
地址 430079 湖北省武汉市洪山区珞瑜路152号