发明名称 一种基于颜色描述的可变形部件模型物体检测方法
摘要 本发明公开了一种基于颜色描述的可变形部件模型物体检测方法,本发明属于图像目标检测技术领域,本发明方法提出一种智能的融合形状与颜色特征的物体检测方法,以可变形部件模型为底层框架,在训练模板时在原有的梯度方向直方图特征空间中加入基于语言学的Color Name颜色描述符,得到特定物体类型的形状模板与颜色模板,最后在检测阶段利用梯度方向直方图形状模板与Color Name颜色模板双模板匹配的滑动窗口方法检测物体。本发明方法克服了传统方法由于使用单一特征描述物体而产生误检测的缺点。
申请公布号 CN104134071A 申请公布日期 2014.11.05
申请号 CN201410277452.4 申请日期 2014.06.20
申请人 北京工业大学 发明人 杨金福;张济昭;高晶钰;张珊珊;李明爱;张强;陈浩
分类号 G06K9/62(2006.01)I;G06K9/66(2006.01)I;G06K9/46(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 张慧
主权项 一种基于颜色描述的可变形部件模型物体检测方法,其特征在于包括如下步骤:步骤1:基于颜色描述的可变形部件模型训练;根据训练样本是否含有特定物体以及物体位置,训练出特定物体的模板,该模板包括描述物体整体特征的根模板、描述局部特征的部件模板以及整体特征与局部特征之间的距离约束关系;步骤1.1:准备图片训练集,选取图片,根据图片提供的标签信息,包括每张图片包含何种物体以及各个物体所在的位置的包围盒坐标,根据训练集中的标签信息确定需要训练的物体模型的正样本集P以及负样本集N,其中含有特定物体的样本称为正样本,反之称为负样本;步骤1.2:初始化根模板;步骤1.2.1:将正样本集P中的标注方框按其长宽比排序,将最大长宽比与最小长宽比之间平均分为m个区间,从而将不同长宽比的标注方框划分到这m个区间内,形成P<sub>1</sub>,...,P<sub>m</sub>组,每组内的包围盒具有相似的长宽比,训练m个不同的根模板F<sub>1</sub>'<sub>0</sub>,...,F<sub>m</sub>'<sub>0</sub>,每组包围盒对应一个,从负样本集N中的图片上随机选择子窗口来产生负样本;步骤1.2.2:提取样本的Color Name与梯度方向直方图HOG联合特征,方法如下:样本灰度化,计算样本的梯度方向直方图特征,将样本图像分成若干个胞元cell,3×3像素的方格,采用9个bin的直方图来统计这些胞元的对比度不敏感梯度信息;将胞元的梯度方向360度分成9个方向块,对胞元内每个像素用梯度方向在直方图中进行加权投影,得到梯度方向直方图,即该胞元对应的9维特征向量,位置(i,j)处cell对应的特征向量记为C(i,j);将梯度方向360度分成18个方向块,得到该胞元对应的18维特征向量;使用该胞元的4个小块block的能量对胞元特征向量进行规范化,然后使用阈值对规范化后向量的各分量进行截断,形成4维规范化特征向量;C(i,j)对应的量化因子计算方法如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>N</mi><mrow><mi>&delta;</mi><mo>,</mo><mi>&gamma;</mi></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><msup><mrow><mo>|</mo><mo>|</mo><mi>C</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>|</mo><mo>|</mo><mi>C</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mi>&delta;</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>|</mo><mo>|</mo><mi>C</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>+</mo><mi>&gamma;</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>|</mo><mo>|</mo><mi>C</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mi>&delta;</mi><mo>,</mo><mi>j</mi><mo>+</mo><mi>&gamma;</mi><mo></mo><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mfrac><mn>1</mn><mn>2</mn></mfrac></msup></mrow>]]></math><img file="FDA0000524124730000011.GIF" wi="1563" he="117" /></maths>其中,δ,γ∈{‑1,1},每个因子都是对包含(i,j)在内的4个胞元组成的小块的梯度能量的度量;用T<sub>α</sub>(v)表示对向量v的元素用阈值α修剪后形成的向量,T<sub>α</sub>(v)的第i个元素是v中第i个元素和α两者中的最小值;对基于胞元的特征映射C进行归一化并截断,截断阈值取α=0.2,4维特征向量如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='(' close=')'><mtable><mtr><mtd><msub><mi>T</mi><mi>&alpha;</mi></msub><mo>(</mo><mi>C</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>N</mi><mrow><mo>-</mo><mn>1</mn><mo>,</mo><mo>-</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>T</mi><mi>&alpha;</mi></msub><mo>(</mo><mi>C</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>N</mi><mrow><mo>+</mo><mn>1</mn><mo>,</mo><mo>-</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>T</mi><mi>&alpha;</mi></msub><mo>(</mo><mi>C</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>N</mi><mrow><mo>+</mo><mn>1</mn><mo>,</mo><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>T</mi><mi>&alpha;</mi></msub><mo>(</mo><mi>C</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>/</mo><msub><mi>N</mi><mrow><mo>-</mo><mn>1</mn><mo>,</mo><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000524124730000012.GIF" wi="685" he="330" /></maths>最后,连接这些向量,形成一个31维向量,用来表示每个胞元;之后计算样本的Color Name特征,Color Name特征是一个11维向量,每一维向量描述了像素或某一图像区域中的颜色属于11种颜色的概率,在梯度方向直方图描述符后面加上Color Name特征,形成新的42维Color Name与梯度方向直方图联合特征,将样本内的所有小块的Color Name与梯度方向直方图联合特征描述符串联起来得到该样本的Color Name与梯度方向直方图联合特征F<sub>i</sub>,使用标准支持向量机训练F<sub>i</sub>,形成m个初始根模板;步骤1.3:建立并优化混合模板;步骤1.3.1:将步骤1.2中得到的m个初始根模板串接起来形成不含部件的混合模板,提取混合模板的多层Color Name与梯度方向直方图联合特征F<sub>i</sub>,多层特征提取分为三个层次:第一,以4×4的小块(block)计算Color Name与梯度方向直方图联合特征,从原图像开始,每一步以相对于上一步2<sup>1/interval</sup>的倍数进行下采样,其中,interval为采样参数,直到经历interval步骤到达原图像尺寸的1/2为止,这一步骤共得到interval层特征;第二,以8×8的小块block计算Color Name与梯度方向直方图联合特征,从原图像开始,每一步以相对于上一步2<sup>1/interval</sup>的倍数进行下采样,直到经历interval步骤到达原图像尺寸的1/2为止,这一步骤共得到interval层特征;第三,以8×8的小块block计算Color Name与梯度方向直方图联合特征,从原图像的一半大小开始,每一步以相对于上一步2<sup>1/interval</sup>的倍数进行下采样,直到特征规模降到小块大小为止;其中,正样本取interval=5,负样本取interval=2每层特征的提取方法同步骤1.2;步骤1.3.2:在完整样本集P和N上利用隐支持向量机训练混合模板的模板,分为两部分,通过两部分的循环迭代优化模板:第一部分,重新标注正样本:设z<sub>p</sub>为在正样本集P与负样本集N的合集中正样本的隐藏变量值,即包围盒位置坐标,在固定模板的情况下,计算出与模板卷积得分最高的z<sub>p</sub>作为新的正样本标注;第二部分:在固定z<sub>p</sub>的情况下去掉远离分界面的负样本,保留靠近分界面的负样本,并利用梯度下降法优化模板;步骤1.4:初始化部件模板并优化混合模板与部件模板的联合模板;步骤1.4.1:设定部件的数量为6个,形状为矩形,选择根模板中能量最大的位置作为部件的位置,然后将该位置能量清零,重新在根模板中选择最大能量位置,直到6个部件位置搜索完毕,部件模板的分辨率初始化为根模板的2倍;步骤1.4.2:将部件模板与步骤1.3中的混合模板串接,在完整样本集P和N上用步骤1.3中的隐支持向量机方法重新训练联合模板的参数;步骤1.4.3:将训练出的联合模板拆分为梯度方向直方图形状模板和Color Name颜色模板;步骤2:利用训练出的两个模板检测目标物体;步骤2.1:基于可变形部件模型的检测;步骤2.1.1:利用滑动窗口方法计算形状模板与查询图像特征空间的卷积得分得到候选包围盒,特征提取过程中,采用多层特征的形式,提取方法与步骤1.3.1相同,采样参数取interval=10;步骤2.1.2:计算检测图像的梯度方向直方图多层特征,并计算检测图像特征与根模板的卷积值F<sub>0</sub>'·φ(H,p<sub>0</sub>),其中F<sub>0</sub>'是根模板,φ(H,p<sub>0</sub>)是与根模板位置相同的检测图像特征;步骤2.1.3:计算检测图像的双倍分辨率梯度方向直方图多层特征,并计算检测图像特征空间与部件模板的卷积值<img file="FDA0000524124730000031.GIF" wi="346" he="130" />其中F<sub>i</sub>'是部件模板,φ(H,p<sub>i</sub>)是与部件模板位置相同的检测图像特征;步骤2.1.4:计算部件模板距离变换后的值<img file="FDA0000524124730000032.GIF" wi="380" he="126" />其中d<sub>i</sub>(i=1,2,...,n)一个四维向量,指定φ<sub>d</sub>(dx,dy)的参数,φ<sub>d</sub>(dx,dy)=(dx,dy,dx<sup>2</sup>,dy<sup>2</sup>)是形变特征,描述部件实际位置远离理想位置的程度;步骤2.1.5:计算步骤2.1.2与步骤2.1.4得出的值的代数和,得到检测窗口的得分,该得分反映模板与检测图像的匹配程度,得出基于形状模板的物体预测方框;步骤2.2:基于Color Name的误预测方框抑制;计算出候选方框内各个像素的Color Name,统计方框内11种颜色的分布直方图以及训练出的颜色模板的11种颜色的分布直方图,利用余弦距离比较两个直方图的相似度,当相似度低于30%时去掉该候选预测方框,从而完成最终的目标检测。
地址 100124 北京市朝阳区平乐园100号