发明名称 一种基于主动学的图像标注方法
摘要 本发明公开了一种基于主动学的网络图像标注方法。该方法首先基于图像数据集构建表征图像视觉相似性关系的K近邻图结构,计算相应的拉普拉斯图矩阵L;接着采用迭代计算求解最优化问题,选择出T个标注样本让用户进行标注;然后根据选择出来的T个标注样本训练多类别SVM分类器模型f<sup>svm</sup>,最后基于训练的SVM分类模型f<sup>svm</sup>对图像数据集中的图像进行图像类别判断,依据判别结果对图像进行标注,从而实现基于主动学的图像标注。本方法采用迭代依次挑选出最具代表性的图像数据进行交互式标注,不仅提高训练的SVM模型性能和图像标注的准确度,还能减少需要标注的图像数目,达到减轻人工劳动量的目的。
申请公布号 CN103942561A 申请公布日期 2014.07.23
申请号 CN201410106864.1 申请日期 2014.03.20
申请人 杭州禧颂科技有限公司 发明人 陈晋音;黄坚
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 一种基于主动学习的网络图像标注方法,其特征在于包括如下步骤:1)对网络图像数据集MSRA‑MM数据集中,选择80类图像,每类100张图像,共计8000张图像,提取64维的颜色直方图和255维的颜色纹理矩特征,构成319维的图像视觉特征表达,得到图像特征集X=[x<sub>1</sub>,x<sub>2</sub>,...,x<sub>n</sub>]∈R<sup>d×n</sup>,其中d=319为图像特征维度,n=8000为图像样本数;2)构建表征图像视觉相似性关系的K近邻图结构,以图像特征集中样本作为K近邻图的顶点,K近邻图的边权重矩阵S设置如下:<img file="FDA0000479709080000011.GIF" wi="1001" he="169" />其中,Ν<sub>k</sub>(x<sub>j</sub>)和Ν<sub>k</sub>(x<sub>i</sub>)分别表示x<sub>j</sub>和x<sub>i</sub>的K近邻;3)根据S矩阵,计算相应的拉普拉斯图矩阵L,计算公式如下:L=S‑D                   2其中,D为对角矩阵,对角元素值<img file="FDA0000479709080000012.GIF" wi="316" he="76" />4)初始化用户标注图像样本z<sub>1</sub>为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>z</mi><mn>1</mn></msub><mo>=</mo><mi>arg</mi><munder><mi>min</mi><mrow><msub><mi>z</mi><mn>1</mn></msub><mo>&Element;</mo><mi>X</mi></mrow></munder><mi>tr</mi><mrow><mo>(</mo><msub><mi>K</mi><mi>XX</mi></msub><msup><mrow><mo>(</mo><msub><mi>K</mi><msub><mi>Xz</mi><mn>1</mn></msub></msub><msub><mi>K</mi><mrow><msub><mi>z</mi><mn>1</mn></msub><mi>X</mi></mrow></msub><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><msub><mi>K</mi><mi>XX</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mn>3</mn></mrow>]]></math><img file="FDA0000479709080000013.GIF" wi="999" he="97" /></maths>其中,(K<sub>XX</sub>)<sub>ij</sub>=K(x<sub>i</sub>,x<sub>j</sub>),<img file="FDA0000479709080000016.GIF" wi="842" he="67" />K(·)为高斯核函数,定义为:K(x,y)=exp(‑||x‑y||<sup>2</sup>/2σ<sup>2</sup>),σ为核参数,tr(·)为矩阵迹运算;5)迭代计算任意第p+1个用户标注样本z<sub>p+1</sub>,直至选择到预定T个标注样本,计算公式如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>z</mi><mrow><mi>p</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>=</mo><mi>arg</mi><mi>rnin tr</mi><mrow><mo>(</mo><msub><mi>K</mi><mi>XX</mi></msub><msup><mrow><mo>(</mo><mi>M</mi><mo>+</mo><msub><mi>K</mi><msub><mi>Xz</mi><mrow><mi>P</mi><mo>+</mo><mn>1</mn></mrow></msub></msub><msub><mi>K</mi><mrow><msub><mi>z</mi><mrow><mi>p</mi><mo>+</mo><mn>1</mn></mrow></msub><mi>X</mi></mrow></msub><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><msub><mi>K</mi><mi>XX</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mn>4</mn></mrow>]]></math><img file="FDA0000479709080000014.GIF" wi="1133" he="90" /></maths>其中,<img file="FDA0000479709080000015.GIF" wi="782" he="78" />Z<sup>p</sup>=[z<sub>1</sub>,...,z<sub>p</sub>]为所有前p个用户标注样本所构成的矩阵;6)根据上面步骤4)和步骤5)选择出来的T个标注样本Z<sup>T</sup>=[z<sub>1</sub>,...,z<sub>T</sub>],训练多类别SVM分类器模型f<sup>svm</sup>,然后基于训练的SVM分类模型f<sup>svm</sup>对图像数据集中的图像进行图像类别判断,依据判别结果对图像进行标注,从而实现基于主动学习的图像标注。
地址 311100 浙江省杭州市下城区费家塘路588号4幢424室