发明名称 基于Gist特征与极限学机的场景分类方法
摘要 一种基于Gist特征与极限学机的场景分类方法,先提取图像的Gist特征,采用Gabor小波对场景图像进行卷积操作,然后提取Gist向量作为场景图像的特征描述,将此特征描述用于场景分类当中。本发明利用Gist特征对图像产生一个综合的认知、综合描述了自然度,开放度,粗略度,展开度和崎岖度五种自然属性,相比较传统的场景分类方法可以避免根据各种实际情况设置不同的参数和门限。解决了传统分类中在变化情况较多条件下必须不断调整分类门限的技术难题,运算速度快且具有很好的泛化能力,扩展性很好,随着分类情况复杂度提高、规模的扩大表现出来的优越性越好。
申请公布号 CN104598920B 申请公布日期 2016.05.18
申请号 CN201410840024.8 申请日期 2014.12.30
申请人 中国人民解放军国防科学技术大学 发明人 高颖慧;王鲁平;李飚;王平;梁楹;张路平;赵明;范明喆
分类号 G06K9/62(2006.01)I;G06K9/66(2006.01)I;G06K9/46(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京中济纬天专利代理有限公司 11429 代理人 胡伟华
主权项 基于Gist特征与极限学习机的场景分类方法,其特征在于包括以下步骤:A图像Gist特征提取:采用Gabor小波对场景图像进行卷积操作,然后提取Gist向量作为场景图像的特征描述,将此特征描述用于接下来的场景分类当中,具体过程为:一幅大小为r×c的灰度图像f(x,y)用m尺度n方向的Gabor滤波器组进行滤波,即分别同n<sub>c</sub>个通道的滤波器进行卷积,其中n<sub>c</sub>=m×n,再级联卷积的结果,即为图像Gist特征,将一副大小为r×c的灰度图像f(x,y)划分成n<sub>p</sub>×n<sub>p</sub>个网格块,各网格块按行依次记作P<sub>i</sub>,其中i=1,...,n<sub>g</sub>;每个网格块大小为r'×c',分别用n<sub>c</sub>个通道的滤波器对图像进行卷积滤波,则每个网格块各通道滤波后,级联的结果称为块Gist特征,用G<sup>P</sup>表示每个网格块的Gist特征,对G<sup>P</sup>块各通道滤波结果取均值后按行组合的结果为全局Gist特征,用G<sup>G</sup>表示全局Gist特征:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msup><mi>G</mi><mi>G</mi></msup><mo>=</mo><mo>{</mo><mover><msubsup><mi>G</mi><mn>1</mn><mi>P</mi></msubsup><mo>&OverBar;</mo></mover><mo>,</mo><mover><msubsup><mi>G</mi><mn>2</mn><mi>P</mi></msubsup><mo>&OverBar;</mo></mover><mo>,</mo><mo>...</mo><mover><mrow><mo>,</mo><msubsup><mi>G</mi><msub><mi>n</mi><mi>g</mi></msub><mi>P</mi></msubsup></mrow><mo>&OverBar;</mo></mover><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000876865590000011.GIF" wi="1366" he="126" /></maths>式中,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mover><msubsup><mi>G</mi><mi>i</mi><mi>P</mi></msubsup><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mrow><msup><mi>r</mi><mo>&prime;</mo></msup><mo>&times;</mo><msup><mi>c</mi><mo>&prime;</mo></msup></mrow></mfrac><munder><mo>&Sigma;</mo><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo><mo>&Element;</mo><msub><mi>P</mi><mi>i</mi></msub></mrow></munder><msubsup><mi>G</mi><mi>i</mi><mi>P</mi></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000876865590000012.GIF" wi="581" he="142" /></maths>G<sup>G</sup>的维数为n<sub>c</sub>×n<sub>g</sub>。B极限学习机对Gist特征进行学习完成图像分类:设P个不同的训练样本为(x<sub>i</sub>,t<sub>i</sub>),其中x<sub>i</sub>=[x<sub>i1</sub>,x<sub>i2</sub>,…,x<sub>in</sub>]<sup>T</sup>∈R<sup>n</sup>且t<sub>i</sub>=[t<sub>i1</sub>,t<sub>i2</sub>,…,t<sub>im</sub>]<sup>T</sup>∈R<sup>m</sup>,i=1,2,…,N,学习网络建模为:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>&beta;</mi><mi>j</mi></msub><msub><mi>g</mi><mi>j</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>&beta;</mi><mi>j</mi></msub><mi>g</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>j</mi></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mi>i</mi></msub><mo>+</mo><msub><mi>b</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>o</mi><mi>i</mi></msub><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>N</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000876865590000013.GIF" wi="1397" he="159" /></maths>其中,M是隐藏节点的个数,g(·)为激励函数,选用hardlim或hardlims,w<sub>j</sub>=[w<sub>j1</sub>,w<sub>j2</sub>,…,w<sub>jn</sub>]<sup>T</sup>∈R<sup>n</sup>是输入节点与第j个隐藏节点的连接权重,b<sub>j</sub>∈R是第j个隐藏节点的偏置,β<sub>j</sub>=[β<sub>j1</sub>,β<sub>j2</sub>,…,β<sub>jm</sub>]<sup>T</sup>∈R<sup>m</sup>是输出节点与第j个隐藏节点的连接权重,w<sub>j</sub>·x<sub>i</sub>表示w<sub>j</sub>和x<sub>i</sub>的内积;输入连接权重和隐层节点偏置(w,b)可随机选择,通过学习找到特定的β<sub>j</sub>,j=1,2,…,M使得分类总误差最小:min||ε||<sup>2</sup>,s.t.ε<sub>i</sub>=t<sub>i</sub>‑o<sub>i</sub>,i=1,2,…,N        (3)其中,ε<sub>i</sub>=[ε<sub>i1</sub>,ε<sub>i2</sub>,…,ε<sub>in</sub>]<sup>T</sup>是第i个样本输出值与真实值间的差值;(3)式中,o<sub>i</sub>是输出值,是Gist特征输入后网络输出的值,t<sub>i</sub>是真实值,是类别的值;假设合理训练的隐层前馈神经网络SLFN能够无误差地逼近N个训练样本,式(3)改写为:Hβ=T或||Hβ‑T||=0       (4)其中,<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>H</mi><mo>=</mo><msub><mfenced open = "[" close = "]"><mtable><mtr><mtd><mrow><mi>g</mi><mrow><mo>(</mo><msub><mi>w</mi><mn>1</mn></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mn>1</mn></msub><mo>+</mo><msub><mi>b</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow></mtd><mtd><mo>...</mo></mtd><mtd><mrow><mi>g</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>M</mi></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mn>1</mn></msub><mo>+</mo><msub><mi>b</mi><mi>M</mi></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>g</mi><mrow><mo>(</mo><msub><mi>w</mi><mn>1</mn></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mn>2</mn></msub><mo>+</mo><msub><mi>b</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow></mtd><mtd><mo>...</mo></mtd><mtd><mrow><mi>g</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>M</mi></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mn>2</mn></msub><mo>+</mo><msub><mi>b</mi><mi>M</mi></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd><mtd><mrow></mrow></mtd><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd><mtd><mo>...</mo></mtd><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd><mtd><mrow></mrow></mtd><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mrow><mi>g</mi><mrow><mo>(</mo><msub><mi>w</mi><mn>1</mn></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mi>N</mi></msub><mo>+</mo><msub><mi>b</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow></mtd><mtd><mo>...</mo></mtd><mtd><mrow><mi>g</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>M</mi></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mi>N</mi></msub><mo>+</mo><msub><mi>b</mi><mi>M</mi></msub><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mrow><mi>N</mi><mo>&times;</mo><mi>M</mi></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000876865590000021.GIF" wi="1318" he="327" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>&beta;</mi><mo>=</mo><msub><mfenced open = "[" close = "]"><mtable><mtr><mtd><msubsup><mi>&beta;</mi><mn>1</mn><mi>T</mi></msubsup></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><msubsup><mi>&beta;</mi><mi>M</mi><mi>T</mi></msubsup></mtd></mtr></mtable></mfenced><mrow><mi>M</mi><mo>&times;</mo><mi>m</mi></mrow></msub><mo>,</mo><mi>T</mi><mo>=</mo><msub><mfenced open = "[" close = "]"><mtable><mtr><mtd><msubsup><mi>t</mi><mn>1</mn><mi>T</mi></msubsup></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><mo>&CenterDot;</mo></mtd></mtr><mtr><mtd><msubsup><mi>t</mi><mi>M</mi><mi>T</mi></msubsup></mtd></mtr></mtable></mfenced><mrow><mi>N</mi><mo>&times;</mo><mi>m</mi></mrow></msub></mrow>]]></math><img file="FDA0000876865590000022.GIF" wi="582" he="262" /></maths>H称为神经网络的隐层输出矩阵,H的第i行对应于所有隐藏节点对第i个训练输入x<sub>i</sub>的输出向量,而H中的第j列是第j个隐层节点对应于输入样本x<sub>k</sub>,k=1,2,…,N的输出向量;求解如下线性方程组的广义最小二乘获得<img file="FDA0000876865590000023.GIF" wi="78" he="78" /><maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mo>|</mo><mo>|</mo><mi>H</mi><mover><mi>&beta;</mi><mo>^</mo></mover><mo>-</mo><mi>T</mi><mo>|</mo><mo>|</mo><mo>=</mo><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mi>&beta;</mi></munder><mo>|</mo><mo>|</mo><mi>H</mi><mi>&beta;</mi><mo>-</mo><mi>T</mi><mo>|</mo><mo>|</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000876865590000031.GIF" wi="1166" he="126" /></maths>上述线性方程组的广义最小二乘解为<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mover><mi>&beta;</mi><mo>^</mo></mover><mo>=</mo><mi>arg</mi><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mi>&beta;</mi></munder><mo>|</mo><mo>|</mo><mi>H</mi><mi>&beta;</mi><mo>-</mo><mi>T</mi><mo>|</mo><mo>|</mo><mo>=</mo><msup><mi>H</mi><mo>+</mo></msup><mi>T</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000876865590000032.GIF" wi="1222" he="111" /></maths>其中H<sup>+</sup>=(H<sup>T</sup>H)<sup>‑1</sup>H<sup>T</sup>为隐层输出矩阵H的Moore‑Penrose广义逆;得到了<img file="FDA0000876865590000033.GIF" wi="63" he="79" />后,测试网络就形成了,然后输入测试图片的Gist特征,进行测试分类,代入Hβ=O,求输出值o,与各类设置的类别的标签对比进行归类,确定所属类别。
地址 410073 湖南省长沙市开福区德雅路109号