一种基于联合检测跟踪的视频行人提取方法,申请号CN201510054657.0-传众专利搜索

发明名称	一种基于联合检测跟踪的视频行人提取方法
摘要	针对监控视频行人目标提取问题，本发明公开了一种基于联合检测与跟踪的视频行人提取方法，包括以下步骤：首先针对监控视频的第t帧图像,采用基于检测的方法检测图像中的行人目标,检测到新目标后给新目标初始化粒子滤波行人目标跟踪器,然后更新粒子滤波行人目标跟踪器,终止跟踪失败或遮挡的行人目标跟踪器，归一化行人目标跟踪器权重，最后计算行人目标的最终位置截取对应位置的目标图像，将图像和目标的坐标、时间等信息以数据库或文件等形式保存到计算机的存储器中。本发明方法能够从监控视频中鲁棒地提取出行人目标，并将行人目标的时间、位置、图片等信息存储至计算机存储中，供后期智能分析使用。
申请公布号	CN104574446A	申请公布日期	2015.04.29
申请号	CN201510054657.0	申请日期	2015.02.03
申请人	中国人民解放军国防科学技术大学	发明人	赖世铭;徐玮;张茂军;熊志辉;王炜
分类号	G06T7/20(2006.01)I;G06K9/00(2006.01)I;G06K9/62(2006.01)I	主分类号	G06T7/20(2006.01)I
代理机构	北京中济纬天专利代理有限公司 11429	代理人	胡伟华
主权项	一种基于联合检测跟踪的视频行人提取方法，其特征在于：第一步：针对监控视频的的第t帧图像，采用基于检测的方法，检测图像中的行人目标，并滤除与当前帧目标跟踪结果有重叠的检测结果；将t时刻检测得到的检测结果定义为潜在新目标<img file="FDA0000666206940000011.GIF" wi="744" he="91" />i＝1,2,…,M<sub>t</sub>，其中i为目标的编号，M<sub>t</sub>为t时刻检测得到的目标个数，前三项<img file="FDA0000666206940000012.GIF" wi="304" he="92" />对应于目标的位置和尺度，其中<img file="FDA0000666206940000013.GIF" wi="214" he="88" />表示t时刻检测到的第i个目标的外接矩形框的中心在图像中的横坐标、纵坐标，外接矩形框的宽和高分别为<img file="FDA0000666206940000014.GIF" wi="462" he="89" />第四项<img file="FDA0000666206940000015.GIF" wi="248" he="93" />表示潜在新目标的持续出现时间，采用动态规划的方法来更新目标的<img file="FDA0000666206940000016.GIF" wi="278" he="85" /><maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msubsup><mi>duration</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>=</mo><mn>1</mn><mo>+</mo><munder><mi>max</mi><mrow><mi>t</mi><mo>-</mo><mi>Δt</mi><mo>≤</mo><msup><mi>t</mi><mo>′</mo></msup><mo>≤</mo><mi>t</mi><mo>-</mo><mn>1,1</mn><mo>≤</mo><mi>j</mi><mo>≤</mo><msub><mi>M</mi><msup><mi>t</mi><mo>′</mo></msup></msub></mrow></munder><mrow><mo>(</mo><msub><mi>I</mi><mi>same</mi></msub><mrow><mo>(</mo><msubsup><mi>pt</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>pt</mi><msup><mi>t</mi><mo>′</mo></msup><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>×</mo><msubsup><mi>duration</mi><msup><mi>t</mi><mo>′</mo></msup><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>M</mi><mi>t</mi></msub></mrow>]]></math><img file="FDA0000666206940000017.GIF" wi="1733" he="123" /></maths>其中<img file="FDA0000666206940000018.GIF" wi="380" he="94" />为二值函数指示了两个潜在新目标是否为同一目标：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>I</mi><mi>same</mi></msub><mrow><mo>(</mo><msubsup><mi>pt</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>pt</mi><msup><mi>t</mi><mo>′</mo></msup><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>,</mo></mtd><mtd><mi>if</mi><mo>\|</mo><msubsup><mi>u</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>-</mo><msubsup><mi>u</mi><msup><mi>t</mi><mo>′</mo></msup><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>\|</mo><mo><</mo><msub><mi>ϵ</mi><mi>u</mi></msub><mo>,</mo><mo>\|</mo><msubsup><mi>v</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>-</mo><msubsup><mi>v</mi><msup><mi>t</mi><mo>′</mo></msup><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>\|</mo><mo><</mo><msub><mi>ϵ</mi><mi>v</mi></msub><mo>,</mo><mo>\|</mo><msubsup><mi>s</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>-</mo><msubsup><mi>s</mi><msup><mi>t</mi><mo>′</mo></msup><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>\|</mo><mo><</mo><msub><mi>ϵ</mi><mi>s</mi></msub><mo>,</mo></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo></mtd><mtd><mi>else</mi><mo>.</mo></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000666206940000019.GIF" wi="1661" he="206" /></maths>表示往前追溯Δt帧，如果前Δt帧范围内的t'时刻，存在与潜在新目标<img file="FDA00006662069400000110.GIF" wi="106" he="91" />相似的潜在新目标<img file="FDA00006662069400000111.GIF" wi="141" he="90" />那么<img file="FDA00006662069400000112.GIF" wi="110" he="90" />的持续出现时间至少是<img file="FDA00006662069400000113.GIF" wi="362" he="87" />制定持续时间长度阈值init<sub>duration</sub>，对于可能的新目标，如果其持续出现的时间达到init<sub>duration</sub>，则定义为新目标；第二步：检测到新目标后给新目标初始化粒子滤波行人目标跟踪器，粒子的初始化采用标准的粒子滤波方式，即采用以目标当前状态为中心的正态分布进行采样，得到N个赋权样本<img file="FDA00006662069400000114.GIF" wi="277" he="92" />来逼近目标状态的后验概率密度p(x<sub>t</sub>\|y<sub>1:t</sub>)，同时建立目标的模版hist<sub>template</sub>；其中<img file="FDA00006662069400000115.GIF" wi="298" he="94" />表示了粒子对应的目标的横坐标、纵坐标和尺度，<img file="FDA00006662069400000116.GIF" wi="90" he="93" />表示了粒子对应的权重；第三步：更新粒子滤波行人目标跟踪器；假设已有t‑1时刻的粒子<img file="FDA00006662069400000117.GIF" wi="102" he="89" />及对应权重<img file="FDA00006662069400000118.GIF" wi="136" he="92" />t时刻的粒子能够通过提议分布进行采样得到；在此采用目标运动模型<img file="FDA00006662069400000119.GIF" wi="266" he="93" />作为粒子的提议分布，那么<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>~</mo><mi>p</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>\|</mo><msubsup><mi>x</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA00006662069400000120.GIF" wi="390" he="93" /></maths>此时粒子权重更新公式为：<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msubsup><mi>w</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>&Proportional;</mo><msubsup><mi>w</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>t</mi></msub><mo>\|</mo><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>N</mi></mrow>]]></math><img file="FDA0000666206940000021.GIF" wi="732" he="93" /></maths>其中y<sub>t</sub>为t时刻观察到的图像；采用多源的观察模型为：<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>t</mi></msub><mo>\|</mo><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>=</mo><msub><mi>p</mi><mi>classifier</mi></msub><mrow><mo>(</mo><msub><mi>y</mi><mi>t</mi></msub><mo>\|</mo><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><msub><mi>p</mi><mi>template</mi></msub><mrow><mo>(</mo><msub><mi>y</mi><mi>t</mi></msub><mo>\|</mo><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000666206940000022.GIF" wi="1017" he="101" /></maths>假设粒子<img file="FDA0000666206940000023.GIF" wi="76" he="92" />所对应的窗口的积分通道特征为<img file="FDA0000666206940000024.GIF" wi="102" he="93" />观察模型的第一项的计算公式为：<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msub><mi>p</mi><mi>classifier</mi></msub><mrow><mo>(</mo><msub><mi>y</mi><mi>t</mi></msub><mo>\|</mo><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>βH</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000666206940000025.GIF" wi="870" he="97" /></maths>其中的<img file="FDA0000666206940000026.GIF" wi="178" he="92" />为窗口的分类器得分，β为常数；观察模型的第二项的计算基于目标的HSV颜色直方图，采用巴氏距离来衡量两直方图之间的差异：<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mi>ξ</mi><mrow><mo>(</mo><msub><mi>hist</mi><mn>1</mn></msub><mo>,</mo><msub><mi>hist</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><msqrt><mn>1</mn><mo>-</mo><msub><mi>Σ</mi><mi>i</mi></msub><msqrt><msub><mi>hist</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><msub><mi>hist</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msqrt></msqrt></mrow>]]></math><img file="FDA0000666206940000027.GIF" wi="1010" he="124" /></maths>假设目标的颜色直方图为hist<sub>template</sub>、粒子<img file="FDA0000666206940000028.GIF" wi="78" he="90" />所对应的窗口的颜色直方图为<img file="FDA0000666206940000029.GIF" wi="142" he="90" />那么观察模型的第二项由下式给出：<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><msub><mi>p</mi><mi>template</mi></msub><mrow><mo>(</mo><msub><mi>y</mi><mi>t</mi></msub><mo>\|</mo><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>λξ</mi><mrow><mo>(</mo><msub><mi>hist</mi><mi>template</mi></msub><mo>,</mo><msubsup><mi>hist</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>)</mo></mrow></mrow>]]></math><img file="FDA00006662069400000210.GIF" wi="1062" he="98" /></maths>其中：λ为常数参数；第四步：行人目标的终止；跟踪失败或暂时的被遮挡等情况发生时，粒子的目标状态相似性将较低，即<img file="FDA00006662069400000211.GIF" wi="414" he="102" />较小，通过设置阈值term<sub>observation</sub>，当<maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><msub><mi>Σ</mi><mi>i</mi></msub><msubsup><mi>w</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>t</mi></msub><mo>\|</mo><msubsup><mi>x</mi><mi>t</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo><</mo><msub><mi>term</mi><mi>observation</mi></msub></mrow>]]></math><img file="FDA00006662069400000212.GIF" wi="722" he="98" /></maths>时认为目标消失，如果目标消失时间达到term<sub>duration</sub>，则终止该行人目标跟踪器；第五步：计算权重和<img file="FDA00006662069400000213.GIF" wi="356" he="100" />进行粒子权重的归一化<img file="FDA00006662069400000214.GIF" wi="282" he="172" />第六步：对所有剩余的行人目标跟踪器，目标位置为<img file="FDA00006662069400000215.GIF" wi="222" he="125" />截取对应位置的目标图像，将图像和目标的坐标、时间等信息以数据库或文件形式保存到计算机的存储器中；第七步：下一帧图像，跳至步骤第一步。
地址	410073 湖南省长沙市开福区德雅路109号