发明名称 基于上下文约束编码的目标跟踪方法
摘要 本发明公开一种基于上下文约束编码的目标跟踪方法,主要解决目标发生快速运动、光照变化、外观剧烈变化导致跟踪失败的问题。实现步骤为:(1)输入一段视频第一帧,人工标记出待跟踪目标;(2)获取搜索窗与正负样本;(3)提取搜索窗特征描述子构建字典,提取正负样本特征描述子进行编码,训练分类器模型;(4)载入新一帧视频图像,获取检测样本,提取特征描述子并编码;(5)利用分类器对检测样本的编码进行分类预测,估计出待跟踪目标位置;(6)根据跟踪位置获取正负样本和搜索窗,更新字典,升级分类器,执行下一帧。本发明确保了图像空间位置的一致性,提高了目标跟踪的稳定性和准确性,可用于交通管制、安全监测、医学图像方面。
申请公布号 CN103473560A 申请公布日期 2013.12.25
申请号 CN201310404988.3 申请日期 2013.09.08
申请人 西安电子科技大学 发明人 田小林;焦李成;尚小维;王爽;刘宪龙;张小华
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 王品华;朱红星
主权项 1.一种基于上下文约束编码的目标跟踪方法,包括以下步骤: (1)输入一段视频的第一帧,人工标记出待跟踪的目标,得到跟踪框的位置; (2)以跟踪框位置为中心获取49个正样本和49个负样本,将涵盖所有正负样本的范围定义为搜索窗; (3)构建第一帧字典B<sup>t</sup>: 根据dense-sift方法,提取搜索窗的特征描述子;再根据k-means聚类方法对这些特征描述子进行聚类,得到第一帧字典B<sup>t</sup>,上标t表示当前正在处理的图像帧数,这里,t=1; (4)根据dense-sift方法,提取所有正负样本的每个像素点的特征描述子<img file="FDA0000378908340000011.GIF" wi="82" he="75" />并根据特征描述子<img file="FDA0000378908340000012.GIF" wi="54" he="71" />和第一帧字典B<sup>t</sup>计算第一帧所有正负样本像素点的编码<img file="FDA0000378908340000013.GIF" wi="78" he="69" />其中,下标i表示样本的第i个像素点;(5)训练分类器参数w<sup>t</sup>: 将正样本类标记为1,将负样本类标记为2,根据正负样本的类标及正负样本的编码<img file="FDA0000378908340000014.GIF" wi="72" he="74" />利用交叉验证方法训练得到libsvm分类器参数w<sup>t</sup>;(6)载入新一帧视频图像,以上一帧目标的跟踪框位置为中心获取98个样本,作为本帧的检测样本,并根据dense-sift方法提取这些检测样本特征描述子<img file="FDA0000378908340000015.GIF" wi="79" he="75" />(7)计算本帧检测样本每个像素点的编码<img file="FDA0000378908340000016.GIF" wi="75" he="74" />7a)根据本帧检测样本的特征描述子<img file="FDA0000378908340000017.GIF" wi="52" he="75" />和上一帧字典B<sup>t-1</sup>,计算本帧检测样本每个像素点的编码<img file="FDA0000378908340000018.GIF" wi="82" he="79" />7b)将本帧检测样本像素点i对应到上一帧图像中,对应到的像素点记为i′, 取出i′的7*7邻域内像素点的编码,将这些像素点编码记作<img file="FDA0000378908340000021.GIF" wi="371" he="86" />计算本帧检测样本像素点编码<img file="FDA0000378908340000022.GIF" wi="60" he="83" />与对应到的上一帧样本像素点编码<img file="FDA0000378908340000023.GIF" wi="349" he="84" />的相似距离,在这49个相似距离中,选取出最小距离对应的像素点编码<img file="FDA0000378908340000024.GIF" wi="99" he="80" /><img file="FDA0000378908340000025.GIF" wi="556" he="121" />其中,min(·)表示求最小值,||·||表示求一范数,arg表示选取<img file="FDA0000378908340000026.GIF" wi="312" he="85" />求出的最小距离所对应的像素点编码;7c)根据所述像素点编码<img file="FDA0000378908340000027.GIF" wi="70" he="84" />和上一帧字典B<sup>t-1</sup>,利用下式求解本帧检测样本像素点的编码<img file="FDA0000378908340000028.GIF" wi="76" he="75" /><img file="FDA0000378908340000029.GIF" wi="755" he="125" /><img file="FDA00003789083400000210.GIF" wi="324" he="80" />其中,||·||<sup>2</sup>表示求二范数,N表示样本中像素点的总个数,λ是系数因子,取值为0.1,符号“s.t.”表示约束条件,约束条件中的1表示元素值全为1的向量,(·)<sup>T</sup>表示转置,符号<img file="FDA00003789083400000211.GIF" wi="139" he="62" />表示i可以取1~N中的任意一个数;(8)根据上一帧训练的分类器参数,利用线性回归方法对本帧检测样本的像素点编码进行分类预测,根据预测的最大决策值估计出本帧待跟踪目标的位置; (9)以估计出的待跟踪目标位置为中心,按照步骤(2)的方法获取本帧正负样本的精确位置和搜索窗位置; (10)构建本帧字典B<sup>t</sup>: 根据dense-sift方法,提取本帧搜索窗的特征描述子;再根据k-means聚类方法,计算这些特征描述子与上一帧字典的接近程度得到新的聚类中心B<sup>t′</sup>,将新的聚类中心B<sup>t′</sup>与上一帧字典B<sup>t-1</sup>加权求和计算得到本帧字典B<sup>t</sup>: B<sup>t</sup>=αB<sup>t-1</sup>+(1-α)B<sup>t′</sup>, 其中,α为权值系数,取值为0.85; (11)根据dense-sift方法,提取本帧正负样本的特征描述子<img file="FDA0000378908340000031.GIF" wi="77" he="75" />(12)计算本帧正负样本每个像素点的编码<img file="FDA0000378908340000032.GIF" wi="83" he="77" />12a)按照步骤(4)的方法,根据本帧正负样本的特征描述子<img file="FDA0000378908340000033.GIF" wi="52" he="79" />和本帧字典B<sup>t</sup>,计算本帧正负样本每个像素点的编码<img file="FDA0000378908340000034.GIF" wi="92" he="83" />12b)按照步骤7b)和步骤7c)的方法,根据步骤12a)计算的本帧正负样本每个像素点的编码<img file="FDA0000378908340000035.GIF" wi="62" he="84" />和本帧B<sup>t</sup>,求解出本帧正负样本每个像素点的编码<img file="FDA0000378908340000036.GIF" wi="84" he="77" />(13)计算本帧分类器参数w<sup>t</sup>: 按照步骤(5)的方法训练出本帧分类器参数w<sup>t′</sup>,将上一帧分类器参数w<sup>t-1</sup>和本帧训练出的分类器参数w<sup>t′</sup>进行加权求和,计算得到本帧分类器参数w<sup>t</sup>: w<sup>t</sup>=βw<sup>t-1</sup>+(1-β)w<sup>t′</sup>, 其中,β是更新系数,取值为0.93; (14)返回步骤(6)执行下一帧。 
地址 710071 陕西省西安市太白南路2号