发明名称 一种多层稀疏编码特征的鸟类图像识别方法
摘要 本发明公开了一种多层稀疏编码特征的鸟类图像识别方法,首先在局部图像块的R,G,B三通道上利用级联多层稀疏编码结构提取稀疏编码特征,每层稀疏编码结构都包含特征编码部分和特征最大值抽取两部分;然后在输出特征上,多层稀疏编码特征使用线性核进行融合,并使用SVM作为分类器进行分类判决。在多层稀疏编码结构中,在优化目标函数中加入了一个局部约束项,在特征编码部分迭代地使用所求得目标函数的近似解进行稀疏编码,然后使用这些编码值最小化重构误差,更新字典。本发明的多层稀疏编码特征的鸟类图像识别方法,能极大提高系统对于鸟类图像的识别精度。
申请公布号 CN105631469A 申请公布日期 2016.06.01
申请号 CN201510964442.2 申请日期 2015.12.18
申请人 华南理工大学 发明人 郭礼华
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 陈文姬
主权项 一种多层稀疏编码特征的鸟类图像识别方法,其特征在于,包括以下步骤:S1训练过程S1.1收集各种鸟类训练图像,组成鸟类训练数据集;S1.2字典学习S1.2.1设定字典学习的目标函数为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>D</mi><mo>,</mo><mi>X</mi></mrow></munder><mo>|</mo><mo>|</mo><mi>Y</mi><mo>-</mo><mi>D</mi><mi>X</mi><mo>|</mo><msubsup><mo>|</mo><mi>F</mi><mn>2</mn></msubsup><mo>+</mo><mi>&lambda;</mi><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>j</mi><mo>&NotEqual;</mo><mi>i</mi></mrow><mi>N</mi></munderover><mo>|</mo><msubsup><mi>d</mi><mi>i</mi><mi>T</mi></msubsup><msub><mi>d</mi><mi>j</mi></msub><mo>|</mo><mo>+</mo><mi>&beta;</mi><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mo>|</mo><mo>|</mo><msub><mi>e</mi><mi>i</mi></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mi>i</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000883074560000011.GIF" wi="1373" he="149" /></maths><img file="FDA0000883074560000012.GIF" wi="571" he="86" />其中Y为图像块的像素矩阵集,y<sub>i</sub>是像素矩阵集Y中第i个图像块的像素矩阵;D是需学习的字典,字典个数为N,字典元素为d<sub>i</sub>和d<sub>j</sub>;X是字典的权重系数,其元素为x<sub>i</sub>;<img file="FDA0000883074560000013.GIF" wi="149" he="142" />是F范数,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>e</mi><mi>i</mi></msub><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><msup><mrow><mo>&lsqb;</mo><mi>d</mi><mi>i</mi><mi>s</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>i</mi></msub><mo>,</mo><msub><mi>d</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>...</mo><mo>,</mo><mi>d</mi><mi>i</mi><mi>s</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>i</mi></msub><mo>,</mo><msub><mi>d</mi><mi>N</mi></msub><mo>)</mo></mrow><mo>&rsqb;</mo></mrow><mi>T</mi></msup><mo>/</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000883074560000014.GIF" wi="845" he="119" /></maths>而dist(y<sub>i</sub>,d<sub>j</sub>)是y<sub>i</sub>与d<sub>j</sub>的欧式距离,·表示矩阵点乘,σ为权重,λ,β是平衡两种约束的权重系数;S1.2.2计算输入信号像素矩阵集Y的编码系数X,得到的新目标函数如式(2)所示,其解析解如式(3)所示;<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>D</mi><mo>,</mo><mi>X</mi></mrow></munder><mo>|</mo><mo>|</mo><mi>Y</mi><mo>-</mo><mi>D</mi><mi>X</mi><mo>|</mo><msubsup><mo>|</mo><mi>F</mi><mn>2</mn></msubsup><mo>+</mo><mi>&beta;</mi><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mo>|</mo><mo>|</mo><msub><mi>e</mi><mi>i</mi></msub><mo>&CenterDot;</mo><msub><mi>x</mi><mi>i</mi></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000883074560000015.GIF" wi="1245" he="139" /></maths><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><mo>&ForAll;</mo><mi>i</mi><mo>,</mo><msup><mn>1</mn><mi>T</mi></msup><msub><mi>x</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn></mrow>]]></math><img file="FDA0000883074560000016.GIF" wi="310" he="78" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><mrow><mo>(</mo><msup><mi>D</mi><mi>T</mi></msup><mo>-</mo><mn>1</mn><msubsup><mi>y</mi><mi>i</mi><mi>T</mi></msubsup><mo>)</mo></mrow><msup><mrow><mo>(</mo><msup><mi>D</mi><mi>T</mi></msup><mo>-</mo><mn>1</mn><msubsup><mi>y</mi><mi>i</mi><mi>T</mi></msubsup><mo>)</mo></mrow><mi>T</mi></msup></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>+</mo><msup><mi>&beta;diag</mi><mn>2</mn></msup><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>)</mo><mo>/</mo><mn>1</mn></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>=</mo><msub><mi>x</mi><mi>i</mi></msub><mo>/</mo><msup><mn>1</mn><mi>T</mi></msup><msub><mi>x</mi><mi>i</mi></msub></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000883074560000017.GIF" wi="1293" he="261" /></maths>S1.2.3在求得编码系数X后,字典中的单词通过KSVD算法按顺序优化更新,目标函数(1)更新为:<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><msub><mi>d</mi><mi>m</mi></msub></munder><mo>{</mo><msubsup><mover><mi>x</mi><mo>&OverBar;</mo></mover><mi>m</mi><mi>T</mi></msubsup><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mi>m</mi></msub><msubsup><mi>d</mi><mi>m</mi><mi>T</mi></msubsup><msub><mi>d</mi><mi>m</mi></msub><mo>-</mo><mn>2</mn><msub><mi>R</mi><mi>m</mi></msub><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mi>m</mi></msub><mo>+</mo><mi>&lambda;</mi><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>j</mi><mo>&NotEqual;</mo><mi>m</mi></mrow><mi>N</mi></munderover><mo>|</mo><msubsup><mi>d</mi><mi>j</mi><mi>T</mi></msubsup><msub><mi>d</mi><mi>m</mi></msub><mo>|</mo><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000883074560000021.GIF" wi="1549" he="159" /></maths>s.t.||d<sub>m</sub>||<sub>2</sub>=1其中<img file="FDA0000883074560000022.GIF" wi="66" he="69" />是X第m行的向量,<img file="FDA0000883074560000023.GIF" wi="349" he="111" />是像素矩阵集Y关于第m个单词的残差;N是字典总个数;S1.2.3不断地迭代实现步骤S1.2.1~S1.2.2;直到每次迭代运行的字典D不再改变;S1.3利用S1.1得到的字典,采用多层稀疏编码对鸟类训练图像进行稀疏编码稀疏计算,得到稀疏编码特征输出;S1.4分类器训练将步骤S1.3所得的稀疏编码特征输出送入线性支持矢量机分类器,得到不同类别鸟类之间的最大分类平面模型;S2测试过程对测试图像,采用步骤S1.3的方法得到稀疏编码特征输出,送入S1.4的分类器所得的鸟类不同类别之间的最大分类平面模型,判断当前测试图像对应的鸟类类别输出。
地址 510640 广东省广州市天河区五山路381号