发明名称 基于学的视频中显著物体序列自动检测方法
摘要 本发明公开了一种基于学的视频中显著物体序列自动检测方法,该方法首先计算静态显著性特征,计算动态显著性特征,并与静态显著性特征自适应组合起来构成显著性特征约束。计算每帧图像中的空间连续性。计算相邻帧图像中显著物体的时间连续性。这里计算所有可能的显著物体之间的相似度。利用前一次计算获得显著物体序列计算全局主题模型,并计算相应的能量贡献。利用动态规划算法进行全局最优求解,从而获得全局最优的显著物体序列。当未满足收敛条件继续迭代求解。否则,输出矩形框序列作为最优的显著物体序列。本发明能有效解决静态与动态显著性特征的选取与多种约束条件的优化集成,以及目标序列检测的高效计算。
申请公布号 CN101329767B 申请公布日期 2011.11.16
申请号 CN200810150324.8 申请日期 2008.07.11
申请人 西安交通大学 发明人 刘铁;袁泽剑;郑南宁;盛兴东;崔超;张耿;董毅
分类号 G06T7/20(2006.01)I;G06K9/46(2006.01)I 主分类号 G06T7/20(2006.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 陈翠兰
主权项 1.基于学习的视频中显著物体序列自动检测方法,其特征在于,包括以下步骤:1)计算静态显著性特征:局部、区域和全局显著性特征计算来自每一帧图像的静态线索;2)计算动态显著性特征,并与静态显著性特征自适应组合起来构成显著性特征约束;计算动态显著性特征方法如下:采用对每个像素点在多尺度上利用Simoncelli滤波器来计算运动场M,对运动场进行加权,加权权值W的计算如下:W(x,M)=exp(-ε<sub>c</sub>||V(x,M)||<sup>2</sup>),其中x为象素点坐标,M为运动场向量,ε<sub>c</sub>=0.2为参数,V(x,M)是来自像素点x周围5×5的窗口内运动场的标准方差;对于加权的运动场,扩展局部、区域和全局性显著性特征到加权运动场中来计算运动场显著性特征:定义在运动场的局部显著性特征为加权多尺度对比度<img file="FSB00000071127700011.GIF" wi="233" he="60" />其计算公式为:<img file="FSB00000071127700012.GIF" wi="1072" he="82" />定义在运动场上的区域显著性特征为加权中间-周围直方图<img file="FSB00000071127700013.GIF" wi="234" he="60" />其计算公式为:<img file="FSB00000071127700014.GIF" wi="1047" he="83" />定义在运动场上的全局显著性特征为加权运动场空间分布<img file="FSB00000071127700015.GIF" wi="227" he="60" />其计算公式为<img file="FSB00000071127700016.GIF" wi="838" he="71" />其中x为象素点坐标,W<sub>x</sub>为运动场的权重,M是运动场向量,N(x)代表x周围一定区域内的像素集,L是总的层数,l代表当前层数,M<sup>l</sup>是金字塔中第l层的二维运动场,W<sub>x</sub><sup>l</sup>是像素点x的权重,R<sub>M</sub><sup>*</sup>是以x′为中心且包括x的矩形框内的统计直方图,<img file="FSB00000071127700021.GIF" wi="71" he="67" />是对应的周围矩形框内的统计直方图,W<sub>xx′</sub>是空间的距离上的权重,W<sub>x′</sub>表明了像素点x′的权重,χ<sup>2</sup>表示直方图间的距离,V(m)为每个高斯元的空间分布方差,m代表高斯元序号,通过对训练数据的学习获得最终组合的加权运动场显著性特征:<maths num="0001"><![CDATA[<math><mrow><msub><mi>F</mi><mi>M</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>&Sigma;</mi><mi>k</mi></msub><msub><mi>&lambda;</mi><mi>k</mi></msub><msub><mi>f</mi><msub><mi>M</mi><mi>k</mi></msub></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>M</mi><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>其中,<img file="FSB00000071127700023.GIF" wi="70" he="62" />为上述介绍的定义在运动场上的局部、区域和全局显著性特征,λ<sub>k</sub>为对应局部、区域和全局显著性特征的参数。上述定义默认为在第t帧图像中的定义。运动显著性在时间维度上的自适应平滑,采用前后两帧运动显著特征的自适应组合方式,即自适应组合后第t帧图像中的显著性特征F<sub>Mt</sub>(x)由第t帧图像中的显著性特征F<sub>Mt</sub>(x)和第t-1帧图像中的显著性特征F<sub>Mt-1</sub>(x)计算:<maths num="0002"><![CDATA[<math><mrow><msub><mi>F</mi><mi>Mt</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>S</mi><mi>t</mi></msub><mrow><msub><mi>S</mi><mi>t</mi></msub><mo>+</mo><msub><mi>S</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow></mfrac><msub><mi>F</mi><mi>Mt</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>+</mo><mfrac><msub><mi>S</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mrow><msub><mi>S</mi><mi>t</mi></msub><mo>+</mo><msub><mi>S</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow></mfrac><msub><mi>F</mi><mrow><mi>Mt</mi><mo>-</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>这里S<sub>t</sub>和S<sub>t-1</sub>定义为权重,计算如下:<img file="FSB00000071127700025.GIF" wi="459" he="134" />其中β<sub>s</sub>=0.1,<img file="FSB00000071127700026.GIF" wi="74" he="58" />被定义为两个5×5的窗口区域里显著性的最大差,定义如下:<img file="FSB00000071127700027.GIF" wi="1160" he="77" />其中N(x)表明5×5的窗口邻域;将自适应平滑后的动态显著性和静态显著性自适应组合起来构成最终的显著性约束:F<sub>t</sub>(x)=F<sub>St</sub>(x)+S<sub>t</sub>×F<sub>Mt</sub>(x),其中S<sub>t</sub>为平滑的运动场显著性上重新计算的运动显著的权重,从定义中看到S<sub>t</sub>∈[0,1];3)计算每帧图像中的空间连续性,具体方法如下:显著物体被表示为一个矩形框,空间连续性被定义为刻画矩形框边界与真实的图像边缘之间的吻合程度,即空间连续性特征由当前图像I<sub>t</sub>和当前帧的标记结果A<sub>t</sub>计算而来,其计算公式为<img file="FSB00000071127700031.GIF" wi="829" he="74" />其中,a<sub>x</sub>表示象素点x处的标记值,a<sub>x</sub>=1表明象素点x属于显著性物体,a<sub>x</sub>=0表明象素点x不属于显著性物体。<img file="FSB00000071127700032.GIF" wi="314" he="60" />表示像素点x到图像边缘的归一化距离,<img file="FSB00000071127700033.GIF" wi="362" he="121" />其中|L<sub>t</sub>|为矩形框上像素点的个数,W和H为图像的宽度和高度,Sobel算子用来计算图像的边界并自适应的选择门限值进行二值化并获得图像的边缘信息;4)计算相邻帧图像中显著物体的时间连续性,时间连续性数学定义如下:<img file="FSB00000071127700034.GIF" wi="936" he="72" />其中<img file="FSB00000071127700035.GIF" wi="696" he="81" />定义了相邻两帧图像中显著物体的形状相似度,而χ<sup>2</sup>(A<sub>t</sub>,A<sub>t+1</sub>)定义了相邻两帧图像中显著物体的表面模式之间的相似度,这里为颜色直方图的χ<sup>2</sup>距离,<img file="FSB00000071127700036.GIF" wi="353" he="110" />β<sub>2</sub>=0.01为权值以保持与其它能量项的平衡;5)如果是第一次迭代,跳转到步骤6)继续,否则对于第n次迭代,利用第n-1次迭代计算获得的显著物体序列计算全局主题模型,并计算相应的能量贡献;利用第n-1次迭代计算获得的显著物体序列结果在整个序列里比较保守的收集显著物体和背景的样本策略,然后利用这些样本构造出显著物体的颜色直方图H<sub>F</sub>(b)和背景的颜色直方图H<sub>B</sub>(b),这里b表示直方图的位阶,然后对每帧图像的每一个像素点计算一个似然,全局主题模型在能量函数中的贡献计算如下:<img file="FSB00000071127700037.GIF" wi="1190" he="125" />其中b<sub>x</sub>为像素点x的颜色直方图值;6)利用动态规划算法进行全局最优求解,从而获得全局最优的显著物体序列;视频中显著物体序列检测的数学建模如下:将视频表示为图像序列I<sub>1…T</sub>,其中T为总帧数,显著物体序列A<sub>1…T</sub>∈{0,1}为二值模板图序列,标明每个像素点是否为显著物体,计算给定观测数据I<sub>1…T</sub>的情况下A<sub>1…T</sub>的条件分布,即<img file="FSB00000071127700041.GIF" wi="924" he="119" />其中t∈[1,T]是时间刻度,Z是归一化函数,显著物体序列A<sub>1…T</sub>通过最小化能量函数进行求解:<maths num="0003"><![CDATA[<math><mrow><msubsup><mi>A</mi><mrow><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>T</mi></mrow><mo>*</mo></msubsup><mo>=</mo><mi>arg</mi><munder><mi>min</mi><msub><mi>A</mi><mrow><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>T</mi></mrow></msub></munder><munder><mi>&Sigma;</mi><mi>t</mi></munder><msub><mi>E</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>A</mi><mi>t</mi></msub><mo>|</mo><msub><mi>I</mi><mrow><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>T</mi></mrow></msub><mo>,</mo><msub><mi>A</mi><mrow><msup><mi>t</mi><mo>&prime;</mo></msup><mo>&NotEqual;</mo><mi>t</mi></mrow></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>能量函数E<sub>t</sub>(A<sub>t</sub>|I<sub>1…T</sub>,A<sub>t′≠t</sub>)被定义为这些线索的线性组合:<img file="FSB00000071127700043.GIF" wi="1700" he="129" />F<sub>t</sub>为显著性约束,<img file="FSB00000071127700044.GIF" wi="56" he="58" />为空间连续性,<img file="FSB00000071127700045.GIF" wi="49" he="58" />为时间连续性,G<sub>t</sub>为全局主题模型;动态规划算法设计如下:A<sub>t</sub>是状态变量,该状态变量由第t帧中矩形框的中心位置和尺度大小构成,U<sub>t</sub>是相邻两帧之间矩形框变化的可能策略,那么最优值函数定义为:<maths num="0004"><![CDATA[<math><mrow><msub><mi>S</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><msub><mi>A</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>=</mo><mi>arg</mi><munder><mi>min</mi><msub><mi>U</mi><mi>t</mi></msub></munder><msub><mi>S</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>A</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>E</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>A</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中A<sub>t</sub>=T(A<sub>t+1</sub>,U<sub>t</sub>)从状态转移函数计算而来,E(A<sub>t</sub>)为(2)式定义的能量函数,目标函数的初始值为S<sub>0</sub>=0,前向算法被用来进行最优值计算,获得全局最优的矩形框序列A<sub>1…T</sub>,在第一次进行能量最小化计算的时候,用到静态和动态显著性、时间与空间连续性,即:<img file="FSB00000071127700051.GIF" wi="1168" he="126" />7)当未满足收敛条件,输出序列不再变化或者达到一定的迭代次数时跳转步骤5)继续迭代求解,否则,输出矩形框序列作为最优的显著物体序列。
地址 710049 陕西省西安市咸宁路28号