发明名称 基于时-空多尺度运动注意力分析的目标检测方法
摘要 本发明公开了一种时-空多尺度运动注意力分析的目标检测方法,具体按照以下步骤实施:步骤1、创建时-空运动融合注意力模型;步骤2、对运动矢量场进行时-空滤波,在时间维度上,通过对运动矢量场滤波得到不同时间尺度下的运动矢量场,并按照一定原则选取最佳时间尺度;步骤3、进行多尺度运动注意力融合。本发明的方法优点是:1)选择合适的时间尺度处理运动矢量场并进行注意力计算,减少了光流估算错误等因素对目标检测的影响,克服了传统方法的局限性。2)在全局运动场景下能有效地检测运动目标区域,具有比同类方法更好的鲁棒性。
申请公布号 CN103065326A 申请公布日期 2013.04.24
申请号 CN201210571787.8 申请日期 2012.12.26
申请人 西安理工大学 发明人 刘龙;王攀;赵晶
分类号 G06T7/20(2006.01)I 主分类号 G06T7/20(2006.01)I
代理机构 西安弘理专利事务所 61214 代理人 李娜
主权项 1.一种时-空多尺度运动注意力分析的目标检测方法,其特征在于:该方法按照以下步骤具体实施:步骤1、创建时-空运动融合注意力模型在时间维度上,邻域内定义运动矢量差值描述时间注意力因子,定义<img file="FDA00002653235900011.GIF" wi="77" he="55" />的时间注意力因子是:<maths num="0001"><![CDATA[<math><mrow><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>T</mi></msubsup><mo>=</mo><mo>|</mo><mi>&Delta;V</mi><mo>|</mo><mo>=</mo><mo>|</mo><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>-</mo><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mrow><mi>k</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>|</mo><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>式中的<img file="FDA00002653235900013.GIF" wi="76" he="55" />和<img file="FDA00002653235900014.GIF" wi="106" he="55" />分别代表在k帧和k-1帧中坐标位置为(i,j)的运动矢量,假定MB<sub>k,i,j</sub>是k帧中坐标为(i,j)的宏块,i和j分别表示宏块的横纵坐标;Λ<sub>k,i,j</sub>表示包含宏块MB<sub>k,i,j</sub>及其相邻宏块的集合,那么定义<img file="FDA00002653235900015.GIF" wi="77" he="56" />的空间注意力因子是:<maths num="0002"><![CDATA[<math><mrow><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>S</mi></msubsup><mo>=</mo><mi>a</mi><mo>&CenterDot;</mo><mo>|</mo><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>-</mo><msub><mover><mi>u</mi><mo>&RightArrow;</mo></mover><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>|</mo><mo>+</mo><mi>b</mi><mo>&CenterDot;</mo><mi>PLog</mi><mfrac><mn>1</mn><mi>P</mi></mfrac><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>式中的a,b是系数,<img file="FDA00002653235900017.GIF" wi="77" he="54" />分别代表在k帧中坐标位置为(i,j)的运动矢量,·代表系数与矢量的乘积,其中<img file="FDA00002653235900018.GIF" wi="388" he="163" />P为当前运动场矢量估算的正态高斯概率函数,其表达式为<maths num="0003"><![CDATA[<math><mrow><mi>P</mi><mo>=</mo><mfrac><mn>1</mn><mrow><msqrt><mn>2</mn><mi>&pi;</mi></msqrt><mi>&delta;</mi></mrow></mfrac><mi>exp</mi><mo>[</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><mfrac><mrow><mover><mi>v</mi><mo>&RightArrow;</mo></mover><mo>-</mo><mover><mi>u</mi><mo>^</mo></mover></mrow><mover><mi>&delta;</mi><mo>^</mo></mover></mfrac><mo>)</mo></mrow><mn>2</mn></msup><mo>]</mo><mo>,</mo></mrow></math>]]></maths>其中的<img file="FDA000026532359000110.GIF" wi="17" he="57" />和<img file="FDA000026532359000111.GIF" wi="21" he="57" />由无偏估计决定,<maths num="0004"><![CDATA[<math><mrow><mover><mi>u</mi><mo>^</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><mi>&Sigma;</mi><msub><mover><mi>V</mi><mo>&OverBar;</mo></mover><mi>k</mi></msub><mo>,</mo></mrow></math>]]></maths><maths num="0005"><![CDATA[<math><mrow><mover><mi>&delta;</mi><mo>^</mo></mover><mo>=</mo><mfrac><mn>1</mn><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></mfrac><mi>&Sigma;</mi><mrow><mo>(</mo><msub><mover><mi>V</mi><mo>&RightArrow;</mo></mover><mi>k</mi></msub><mo>-</mo><msub><mover><mi>V</mi><mo>&OverBar;</mo></mover><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>本方法定义运动注意力模型为时间和空间注意力因子的线性融合模型,线性组合是:<maths num="0006"><![CDATA[<math><mrow><msub><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mi>&alpha;</mi><mo>&CenterDot;</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>T</mi></msubsup><mo>+</mo><mi>&beta;</mi><mo>&CenterDot;</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>S</mi></msubsup><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中的α、β为正值的系数,最终借鉴融合模型进行运动注意力融合,公式如下:<maths num="0007"><![CDATA[<math><mrow><msub><mover><mi>A</mi><mo>~</mo></mover><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><msub><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>+</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mi>&delta;</mi><mo>&CenterDot;</mo><mi>max</mi><mrow><mo>(</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>T</mi></msubsup><mo>,</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>S</mi></msubsup><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>&sigma;</mi></mrow></math>]]></maths><maths num="0008"><![CDATA[<math><mrow><mo>=</mo><mi>&alpha;</mi><mo>&CenterDot;</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>T</mi></msubsup><mo>+</mo><mi>&beta;</mi><mo>&CenterDot;</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>S</mi></msubsup><mo>+</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mi>&delta;</mi><mo>&CenterDot;</mo><mi>max</mi><mrow><mo>(</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>T</mi></msubsup><mo>,</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>S</mi></msubsup><mo>)</mo></mrow><mo>&CenterDot;</mo><mo>|</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>T</mi></msubsup><mo>-</mo><msubsup><mi>A</mi><mrow><mi>k</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mi>S</mi></msubsup><mo>|</mo><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中δ为正值,公式(5)中的后半部分代表时-空对注意力影响的偏置;步骤2、对运动矢量场进行时-空滤波时间尺度滤波定义是:假设运动矢量场时间序列为<img file="FDA00002653235900022.GIF" wi="188" he="61" /><img file="FDA00002653235900023.GIF" wi="17" he="29" />指t时刻运动矢量场中的运动矢量,那么低通滤波后的运动矢量场<img file="FDA00002653235900024.GIF" wi="135" he="49" />由以下迭代公式确定:<maths num="0009"><![CDATA[<math><mrow><msub><mi>ML</mi><mi>i</mi></msub><mrow><mo>(</mo><mover><mi>v</mi><mo>&RightArrow;</mo></mover><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msub><mo>&PartialD;</mo><mi>i</mi></msub><mo>&CenterDot;</mo><msub><mi>ML</mi><mi>i</mi></msub><mrow><mo>(</mo><mover><mi>v</mi><mo>&RightArrow;</mo></mover><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mo>&PartialD;</mo><mi>i</mi></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>MVF</mi><mrow><mo>(</mo><mover><mi>v</mi><mo>&RightArrow;</mo></mover><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths>公式中,t>0,<img file="FDA00002653235900026.GIF" wi="268" he="60" />M<sub>v</sub>为初始化系数,滤波系数<img file="FDA00002653235900027.GIF" wi="141" he="51" />决定了当前运动场在滤波后所占的程度大小,运动场的滤波效果取决于<img file="FDA00002653235900028.GIF" wi="30" he="41" />系数的大小;<img file="FDA00002653235900029.GIF" wi="29" he="41" />的取值需要考虑运动场的时间频率和所需的时间尺度,上述公式变形为下式:<maths num="0010"><![CDATA[<math><mrow><msub><mi>ML</mi><mi>i</mi></msub><mrow><mo>(</mo><mover><mi>v</mi><mo>&RightArrow;</mo></mover><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mo>&PartialD;</mo><mi>i</mi></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><msubsup><mo>&PartialD;</mo><mi>i</mi><mrow><mi>t</mi><mo>-</mo><mi>j</mi></mrow></msubsup><mo>&CenterDot;</mo><mi>MVF</mi><mrow><mo>(</mo><mover><mi>v</mi><mo>&RightArrow;</mo></mover><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>+</mo><msubsup><mo>&PartialD;</mo><mi>i</mi><mi>t</mi></msubsup><mo>&CenterDot;</mo><msub><mi>M</mi><mi>v</mi></msub><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>式中,ML<sub>i</sub>为滤波后的运动矢量场,在时间滤波后,对运动矢量进行空间上的中值滤波处理得到真正反映视频对象运动的运动矢量,运动矢量中值滤波过程如下:对于每一个非零运动矢量,用相邻的运动矢量中值代替其值,在空间维度上,采用多分辨率分析理论,将图像帧在空间上进行多分辨率分解,在不同尺度空间中进行运动估计,选用具有紧支集的正交小波基来构造滤波器进行分解,多尺度分解后,在每个级别的低频尺度空间上作运动估计,得到不同尺度下的运动矢量场;步骤3、进行多尺度运动注意力融合融合过程考虑了图像像素分布的相关性,相关性程度高的像素宏块进行合并,采用共生矩阵的相关性系数来衡量当前像素块的像素值分布特点,共生矩阵的相关系数是用来衡量共生矩阵中元素在行或列方向上的相似程度,设f为大小m×n的图像,则相关系数是:<maths num="0011"><![CDATA[<math><mrow><mi>Cor</mi><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>g</mi></msub><mo>-</mo><mn>1</mn></mrow></msubsup><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>[</mo><mfrac><mrow><mrow><mo>(</mo><msub><mrow><mi>i</mi><mo>-</mo><mi>u</mi></mrow><mi>i</mi></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><mrow><mo>(</mo><mi>j</mi><mo>-</mo><msub><mi>u</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><msubsup><mi>&delta;</mi><mi>i</mi><mn>2</mn></msubsup><mo>&CenterDot;</mo><msubsup><mi>&delta;</mi><mi>j</mi><mn>2</mn></msubsup></mrow></mfrac><mo>]</mo><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow></math>]]></maths>式(8)中,<maths num="0012"><![CDATA[<math><mrow><msub><mi>u</mi><mi>i</mi></msub><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>g</mi></msub><mo>-</mo><mn>1</mn></mrow></msubsup><mi>i</mi><mo>&CenterDot;</mo><msub><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></msub><mo>,</mo></mrow></math>]]></maths><maths num="0013"><![CDATA[<math><mrow><msub><mi>u</mi><mi>j</mi></msub><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>g</mi></msub><mo>-</mo><mn>1</mn></mrow></msubsup><mi>j</mi><mo>&CenterDot;</mo><msub><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></msub><mo>,</mo></mrow></math>]]></maths><maths num="0014"><![CDATA[<math><mrow><msubsup><mi>&delta;</mi><mi>i</mi><mn>2</mn></msubsup><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>g</mi></msub><mo>-</mo><mn>1</mn></mrow></msubsup><msub><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></msub><mo>&CenterDot;</mo><msup><mrow><mo>(</mo><mrow><mi>i</mi><mo>-</mo><msub><mi>u</mi><mi>i</mi></msub></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>,</mo></mrow></math>]]></maths><maths num="0015"><![CDATA[<math><mrow><msubsup><mi>&delta;</mi><mi>j</mi><mn>2</mn></msubsup><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>g</mi></msub><mo>-</mo><mn>1</mn></mrow></msubsup><msub><mi>P</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></msub><mo>&CenterDot;</mo><msup><mrow><mo>(</mo><mi>j</mi><mo>-</mo><msub><mi>u</mi><mi>j</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>,</mo></mrow></math>]]></maths>多尺度注意力融合的具体过程是:判断第n层Cor(PB<sub>i,j</sub>)与阈值T作比较,若Cor(PB<sub>i,j</sub>)>T,说明像素的分布相关性大,光流运动估算的出现误差的可能性小,则选择当前宏块对应的注意力值,并按照四叉树形式将下一尺度对应的四个宏块注意力值进行赋值;若Cor(PB<sub>i,j</sub>)<T,说明像素的分布相关性小,光流运动估算的出现误差的可能性大,因此该宏块不取当前值,按照从低尺度向高尺度逐层判断的顺序,最终得到融合后的注意力图。
地址 710048 陕西省西安市金花南路5号