发明名称 一种基于目标识别与显著性检测的图像场景多对象分割方法
摘要 本发明公开了一种基于目标识别与显著性检测的图像场景多对象分割方法,包括:在图像训练集上训练语义对象的检测器,并检测输入图像中对象的位置,标定对象的包围盒;对输入的图像进行过分割处理,得到超像素集合,根据包围盒的位置和超像素的语义概率值,计算兴趣区域;在三种稠密尺度上进行场景显著性检测,得到图像的显著图;在兴趣区域内,计算超像素的邻接关系,每一个对象是一种类别;以每个超像素作为场模型的节点,超像素的邻接关系对应场模型中节点之间的连接关系,将显著性和图像特征转化为节点和边的权重值;利用图割算法,在条件随机场模型上进行优化,迭代终止时得到像素的对象标记结果,从而实现多个对象的分割。
申请公布号 CN105760886A 申请公布日期 2016.07.13
申请号 CN201610099473.0 申请日期 2016.02.23
申请人 北京联合大学 发明人 李青;袁家政
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 沈波
主权项 一种基于目标识别与显著性检测的图像场景多对象分割方法,其特征在于:该方法包含如下步骤,步骤1、在图像训练集上训练语义对象的检测器,针对输入的测试图像,利用识别分类器给出像素点的语义概率值,利用训练好的检测器检测对象的位置,并标定对象的包围盒,确定对象的大致范围及大致数量;步骤2、将输入的测试图像进行过分割处理,得到超像素集合,根据包围盒的位置和超像素的语义概率值,计算兴趣区域;步骤3、对输入的测试图像在三种稠密尺度上进行场景显著性检测,得到像素级的显著图,再根据超像素与像素的对应关系,将像素级的场景显著性转化成超像素级的场景显著值;步骤4、在兴趣区域内,计算超像素的邻接关系,形成邻接矩阵,兴趣区域外的超像素不在计算范围内;构建条件随机场模型,将多对象分割问题转化成多类别标记问题,每一个对象是一种类别;以每个超像素作为场模型的节点,超像素的邻接关系对应场模型中节点之间的连接关系,为节点和边赋予权重值;步骤5、利用图割算法,在条件随机场模型上进行优化,迭代终止时得到像素的对象标记结果,从而实现多个对象的分割;对于每一个窗口内的块结构,计算R、G、B三个通道的颜色均值,作为该块结构中心点像素的特征值,如以下公式所示,其中size(P)为滑动窗口大小;<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>R</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><mi>P</mi><mo>)</mo></mrow></mrow></mfrac><munder><mo>&Sigma;</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>&Element;</mo><mi>P</mi></mrow></munder><mi>R</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>3</mn><mo>:</mo><mi>i</mi><mo>+</mo><mn>3</mn><mo>,</mo><mi>j</mi><mo>-</mo><mn>3</mn><mo>:</mo><mi>j</mi><mo>+</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000928216880000011.GIF" wi="909" he="134" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>G</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><mi>P</mi><mo>)</mo></mrow></mrow></mfrac><munder><mo>&Sigma;</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>&Element;</mo><mi>P</mi></mrow></munder><mi>G</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>3</mn><mo>:</mo><mi>i</mi><mo>+</mo><mn>3</mn><mo>,</mo><mi>j</mi><mo>-</mo><mn>3</mn><mo>:</mo><mi>j</mi><mo>+</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000928216880000012.GIF" wi="917" he="133" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>B</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>s</mi><mi>i</mi><mi>z</mi><mi>e</mi><mrow><mo>(</mo><mi>P</mi><mo>)</mo></mrow></mrow></mfrac><munder><mo>&Sigma;</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>&Element;</mo><mi>P</mi></mrow></munder><mi>B</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>3</mn><mo>:</mo><mi>i</mi><mo>+</mo><mn>3</mn><mo>,</mo><mi>j</mi><mo>-</mo><mn>3</mn><mo>:</mo><mi>j</mi><mo>+</mo><mn>3</mn><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000928216880000013.GIF" wi="942" he="149" /></maths>将所有块结构颜色值归一化处理,针对当前的以(i,j)为中心的窗口块结构,根据颜色距离值,在三个尺度上选择距离最近的60个块结构,以此60个块结构的颜色平均值作为该块结构中心点像素的显著性值;对于未采样的点,它的显著性值是根据它的颜色值以及它周围像素点的显著性值线性插值得到的,计算过程如以下公式所示:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo><mo>&Element;</mo><mi>N</mi></mrow></munder><mo>{</mo><mi>c</mi><mi>o</mi><mi>l</mi><mi>o</mi><mi>r</mi><mo>(</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>-</mo><mi>c</mi><mi>o</mi><mi>l</mi><mi>o</mi><mi>r</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>}</mo><mo>*</mo><mo>{</mo><mn>1</mn><mo>-</mo><mi>d</mi><mi>i</mi><mi>s</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>}</mo></mrow>]]></math><img file="FDA0000928216880000021.GIF" wi="1093" he="111" /></maths>其中,N为(i,j)的邻域集,color(●)为像素点的颜色值,dis(x,y)为邻域点(x,y)到该点的距离,所有度量都进行了归一化处理;根据像素点与超像素的对应关系,将像素级显著性转化成超像素级显著性,以超像素中所有像素显著性的均值作为该超像素的显著性值;在此基础上,在兴趣区域内构建条件随机场模型,将多对象分割问题转化成多类别标记问题,每一个对象是一种类别,兴趣区域外的图像区域默认为“其他”语义类别;超像素对应场模型的节点,邻接的超像素在场模型中对应相应的边;节点权重计算方式为:在已确定对象个数的情况下,计算每个超像素属于每个对象的概率值,每个对象中包括“其他”对象;如果超像素的显著性值大于设定阈值T3,该超像素属于每个对象的概率值由三部分构成,即该超像素的显著性值、该超像素是否属于对象的包围盒以及该包围盒的分值,否则,该超像素属于每个对象的概率值为零;如果超像素的显著性值小于设定阈值T3,则该超像素属于“其他”对象,其概率值由它的显著性确定,否则概率值为零,如以下公式所示;<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>U</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>S</mi><mi>m</mi><mi>a</mi><mi>p</mi><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>+</mo><mi>i</mi><mi>n</mi><mi>B</mi><mi>b</mi><mi>o</mi><mi>x</mi><mrow><mo>(</mo><mi>s</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>*</mo><mi>V</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mi>i</mi><mi>f</mi><mi> </mi><mi>S</mi><mi>m</mi><mi>a</mi><mi>p</mi><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>&gt;</mo><msub><mi>t</mi><mn>3</mn></msub></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>e</mi><mi>l</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000928216880000022.GIF" wi="1116" he="142" /></maths><maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msub><mi>U</mi><mi>o</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>S</mi><mi>m</mi><mi>a</mi><mi>p</mi><mo>(</mo><mi>s</mi><mo>)</mo><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mi>i</mi><mi>f</mi><mi> </mi><mi>S</mi><mi>m</mi><mi>a</mi><mi>p</mi><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>&lt;</mo><msub><mi>t</mi><mn>3</mn></msub></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>e</mi><mi>l</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000928216880000023.GIF" wi="830" he="147" /></maths>其中,U<sub>k</sub>(s)代表超像素s属于对象类别k的概率值,U<sub>o</sub>(s)代表超像素s属于“其他”对象类别o的概率值,Smap(s)为超像素的显著性值,inBbox(s,k)代表超像素是否处于对象k的包围盒范围,V(k)为对象k的包围盒分值;场模型边权重的计算方式如下:边权值B(r,s)由该边所连接的两个超像素之间的边界特征差异bdry(r,s)决定,Nei(r,s)代表邻接关系,特征向量的组成包括RGB颜色特征、HOG梯度特征以及形状先验,特征差异为两个超像素在特征空间的欧式距离,λ和c是调节参数;B(r,s)=Nei(r,s)*Smooth(r,s)Smooth(r,s)=exp(‑λ*bdry(r,s))+log(bdry(r,s)+1)+c因此,条件随机场模型的能量公式为:E(s)=U<sub>{k,o}</sub>(s)+B(r,s)在利用图割算法优化时,待分割的对象类别包括包围盒确定的对象个数以及一个“其他”类别,以便于将兴趣区域中不属于对象的超像素剔除出去;当图割优化终止时,每一个超像素被标记为一个对象类别。
地址 100101 北京市朝阳区北四环东路97号