发明名称 一种大数据图像分类方法
摘要 本发明公开了一种大数据图像分类方法,包括如下步骤:1)收集图像样本作为训练集;2)寻找大数据图像分类最优的投影矩阵;3)对无标注数据进行投影;4)对投影后的样本采用最小距离分类器分类。利用本发明提出的方法能够有效利用样本分布的局部几何信息,并提取分类的鉴别信息,减少大数据图像分类对人工标注样本的依赖,有效减少训练过程中的存储成本,其分类准确度高于有代表性的基于线性判别分析的图像分类方法。
申请公布号 CN103488744B 申请公布日期 2016.10.05
申请号 CN201310432630.1 申请日期 2013.09.22
申请人 华南理工大学 发明人 金连文;陶大鹏;王永飞
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 蔡茂略
主权项 一种大数据图像分类方法,包括以下步骤:1)收集图像样本作为训练集X,即:X=[x<sub>1</sub>,x<sub>2</sub>,…,x<sub>N</sub>]∈R<sup>D×N</sup>,其中x<sub>1</sub>,x<sub>2</sub>,…,x<sub>N</sub>,代表样本,D为样本维数,N为样本数量,每个样本有相应的类标志C<sub>i</sub>;2)寻找大数据图像分类最优的投影矩阵U;3)通过对无标注数据集X<sub>u</sub>进行投影,并获得新的样本特征集Y<sub>u</sub>,即:Y<sub>u</sub>=U<sup>T</sup>X<sub>u</sub>;4)对投影后样本特征集Y<sub>u</sub>采用最小距离分类器分类,获得图像分类的结果;其特征在于,所述寻找大数据图像分类最优的投影矩阵,包括以下步骤:步骤1、建立局部优化目标函数;步骤2、建立全局优化目标函数;步骤3、利用拉格朗日乘数法:将新的全局优化目标的问题转换为求广义特征值α问题,大数据图像分类最优的投影矩阵U由式子XLX<sup>T</sup>α=λXX<sup>T</sup>α的前d个最小特征值对应的d个特征向量得到;所述步骤1包括:对每一个已标注的样本x<sub>i</sub>,找到同类样本<img file="FDA0000991150740000011.GIF" wi="187" he="63" />的共k<sub>1</sub>近邻和不同类别样本<img file="FDA0000991150740000012.GIF" wi="199" he="70" />的共k<sub>2</sub>近邻来形成一个局部块,即:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>X</mi><mi>i</mi></msub><mo>=</mo><mo>&lsqb;</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><msup><mi>i</mi><mn>1</mn></msup></msub><mo>,</mo><mo>...</mo><msub><mi>x</mi><msup><mi>i</mi><msub><mi>k</mi><mn>1</mn></msub></msup></msub><mo>,</mo><msub><mi>x</mi><msub><mi>i</mi><mn>1</mn></msub></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>x</mi><msub><mi>i</mi><msub><mi>k</mi><mn>2</mn></msub></msub></msub><mo>&rsqb;</mo><mo>&Element;</mo><msup><mi>R</mi><mrow><mi>D</mi><mo>&times;</mo><mrow><mo>(</mo><msub><mi>k</mi><mn>1</mn></msub><mo>+</mo><msub><mi>k</mi><mn>2</mn></msub><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow></msup><mo>;</mo></mrow>]]></math><img file="FDA0000991150740000013.GIF" wi="926" he="95" /></maths>定义R<sub>ij</sub>为第j个样本相对第i个样本里的位置顺序,设定每个局部块的新的低维空间表达,即:<img file="FDA0000991150740000014.GIF" wi="918" he="103" />满足不同类别样本距离足够大,同时同类样本位置顺序信息尽可能的保留;对不同类别样本在新的投影空间的距离建立(1)式:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>M</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>p</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>k</mi><mn>2</mn></msub></munderover><mo>|</mo><mo>|</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><msub><mi>i</mi><mi>p</mi></msub></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000991150740000015.GIF" wi="1237" he="167" /></maths>对同类样本在新的投影空间的位置顺序信息建立(2)式:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>R</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>k</mi><mn>1</mn></msub></munderover><mo>|</mo><mo>|</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><msup><mi>i</mi><mi>j</mi></msup></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><msub><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>j</mi></msub><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000991150740000021.GIF" wi="1261" he="162" /></maths>其中,(w<sub>i</sub>)<sub>j</sub>表示区别小距离和大距离之间的惩罚因子,当原始空间的距离小时,赋予低维子空间较大的权重,当距离大时,赋予较小的权重;所述惩罚因子的定义如下:<img file="FDA0000991150740000022.GIF" wi="1342" he="219" />其中,<img file="FDA0000991150740000023.GIF" wi="180" he="87" />表示x<sub>i</sub>的k<sub>1</sub>个同类近邻样本集,|| ||为求2范数符号;由于局部块X<sub>i</sub>是近似线性的,利用公式(1)、公式(2)和权衡系数γ,得到局部优化的目标函数,所述目标函数的表达式如下:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>arg</mi><mi> </mi><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><msub><mi>y</mi><mi>i</mi></msub></munder><mrow><mo>(</mo><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>k</mi><mn>1</mn></msub></munderover><mo>|</mo><mo>|</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><msup><mi>i</mi><mi>j</mi></msup></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><msub><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>j</mi></msub><mo>-</mo><mi>&gamma;</mi><munderover><mo>&Sigma;</mo><mrow><mi>p</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>k</mi><mn>2</mn></msub></munderover><mo>|</mo><mo>|</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><msub><mi>i</mi><mi>p</mi></msub></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000991150740000024.GIF" wi="1534" he="175" /></maths>其中,权衡系数γ∈[0,1],所述目标函数式(4)的意义是在局部块上,满足不同类别样本距离和足够大,同时同类样本位置顺序信息尽可能的保留;对公式(4)进行进一步简化,得到公式(5):<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><munder><mrow><mi>arg</mi><mi>min</mi></mrow><msub><mi>y</mi><mi>i</mi></msub></munder><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>k</mi><mn>1</mn></msub></munderover><mo>|</mo><mo>|</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><msub><mi>i</mi><mi>j</mi></msub></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><msub><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>j</mi></msub><mo>-</mo><mi>&gamma;</mi><munderover><mo>&Sigma;</mo><mrow><mi>p</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>k</mi><mn>2</mn></msub></munderover><mo>|</mo><mo>|</mo><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><msub><mi>i</mi><mi>j</mi></msub></msub><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup></mrow></mtd></mtr><mtr><mtd><mrow><munder><mrow><mi>arg</mi><mi>min</mi></mrow><msub><mi>Y</mi><mi>i</mi></msub></munder><mi> </mi><mi>t</mi><mi>r</mi><mrow><mo>(</mo><mrow><msub><mi>Y</mi><mi>i</mi></msub><msub><mi>L</mi><mi>i</mi></msub><msubsup><mi>Y</mi><mi>i</mi><mi>T</mi></msubsup></mrow><mo>)</mo></mrow><mo>,</mo></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000991150740000025.GIF" wi="1518" he="303" /></maths>其中,tr()是迹算子,<img file="FDA0000991150740000026.GIF" wi="891" he="197" /><img file="FDA0000991150740000027.GIF" wi="1885" he="215" /><img file="FDA0000991150740000031.GIF" wi="950" he="238" />
地址 510640 广东省广州市天河区五山路381号