发明名称 基于机器视觉的交通视频监控目标检测快速适应方法
摘要 本发明属于机器视觉与智能控制领域,用于实现交通视频监控目标检测的快速自适应。首先建立初始训练样本库,接下来分别训练基于Haar特征的AdaBoost分类器和基于HOG特征的SVM分类器,利用训练好的两个分类器对监控图像逐帧检测,检测过程为分别利用两类分类器对检测框中的子图像进行预测,并对预测结果进行置信度判断,将大置信度对应的预测标签以及子图像加入到小置信度对应的分类器的附加训练样本库中,直到检测框大小达到被检测图像大小一半时结束,此时利用更新后的训练样本库重新训练两类分类器,并进行下一帧图像的检测,直到检测完所有图像,此时可将最终分类器用于实际的交通场景中进行车辆、行人等目标的检测。
申请公布号 CN103208008B 申请公布日期 2015.11.18
申请号 CN201310091575.4 申请日期 2013.03.21
申请人 北京工业大学 发明人 刘星;辛乐;杨德亮;陈阳舟;吴旭
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 吴荫芳
主权项 基于机器视觉的交通视频监控目标检测快速适应方法,基于由监控摄像机、监控设备、服务器构成的硬件平台,其特征在于包括以下步骤:(1).建立初始训练样本库,所述的初始训练样本库由正样本即包含待检测目标的图像,和负样本即不包含待检测目标的图像组成;(2).训练初始分类器:从初始训练样本库的各个样本中提取Haar特征,训练初始AdaBoost分类器,所选择的Haar特征包含边缘特征、线性特征、中心环绕特征和特殊对角线特征;再从初始训练样本库的各个样本中提取HOG特征,训练初始SVM分类器;(3).使用检测框对监控摄像机所拍摄的同一段视频的同一帧图像进行遍历,对遍历过程中检测框所圈中的子图像进行检测,检测过程结束后移动检测框至下一位置重复检测过程,直至遍历完整帧图像;之后扩大检测框的大小并再次遍历整帧图像,直至检测框的大小达到一帧图像的一半时,完成对一帧图像的检测,继续步骤(4);所述的检测过程包括以下步骤:(3.1)利用AdaBoost分类器和SVM分类器分别对同一子图像进行检测,分别得到子图像的预测标签<img file="FDA0000786882760000011.GIF" wi="113" he="87" />和<img file="FDA0000786882760000012.GIF" wi="148" he="91" />其中<img file="FDA0000786882760000013.GIF" wi="120" he="90" />为子图像Haar特征的预测标签;<img file="FDA0000786882760000014.GIF" wi="121" he="91" />为子图像HOG特征的预测标签;预测标签用于表示子图像属于正样本或负样本,若结果不一致,则跳出检测过程,并将检测框移动至下一位置;若结果一致,则继续进行下一步;其中若子图像属于视频中的第一帧图像,则使用步骤(2)所训练的初始分类器,否则使用步骤(4)最近一次更新后的分类器;(3.2)从初始训练样本库的各个样本图像中分别提取Haar特征和HOG特征的特征值,其中,<img file="FDA0000786882760000015.GIF" wi="117" he="83" />表示第k个样本图像的Haar特征,<img file="FDA0000786882760000016.GIF" wi="124" he="84" />表示第k个样本图像的HOG特征;从检测的子图像中分别提取Haar特征和HOG特征的特征值,记作<img file="FDA0000786882760000017.GIF" wi="112" he="77" />和<img file="FDA0000786882760000018.GIF" wi="144" he="78" />计算子图像中提取的特征值与初始训练样本库的各个样本图像中提取的特征值之间的欧式距离,其中,子图像的Haar特征值与初始训练样本库的第k个样本图像的Haar特征值之间的欧式距离为<img file="FDA0000786882760000019.GIF" wi="325" he="85" />子图像的HOG特征值与初始训练样本库的第k个样本图像的HOG特征值之间的欧式距离为<img file="FDA0000786882760000021.GIF" wi="330" he="90" />分别从两组欧式距离中选出K个最小值计算得到两组权重ω<sup>Haar</sup>和ω<sup>HOG</sup>,每组包括K个权重值,第k个权重值的计算公式为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mfenced open = '' close = ''><mtable><mtr><mtd><mrow><msubsup><mi>&omega;</mi><mi>k</mi><mrow><mi>H</mi><mi>a</mi><mi>a</mi><mi>r</mi></mrow></msubsup><mo>=</mo><msup><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mi>d</mi><mo>(</mo><msubsup><mi>x</mi><mi>p</mi><mrow><mi>H</mi><mi>a</mi><mi>a</mi><mi>r</mi></mrow></msubsup><mo>,</mo><msubsup><mi>x</mi><mrow><mi>q</mi><mi>k</mi></mrow><mrow><mi>H</mi><mi>a</mi><mi>a</mi><mi>r</mi></mrow></msubsup><mo>)</mo><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup></mrow></mtd><mtd><mrow><mn>0</mn><mo>&lt;</mo><msubsup><mi>&omega;</mi><mi>k</mi><mrow><mi>H</mi><mi>a</mi><mi>a</mi><mi>r</mi></mrow></msubsup><mo>&lt;</mo><mn>1</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000786882760000022.GIF" wi="956" he="86" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mfenced open = '' close = ''><mtable><mtr><mtd><mrow><msubsup><mi>&omega;</mi><mi>k</mi><mrow><mi>H</mi><mi>O</mi><mi>G</mi></mrow></msubsup><mo>=</mo><msup><mrow><mo>(</mo><mn>1</mn><mo>+</mo><mi>d</mi><mo>(</mo><msubsup><mi>x</mi><mi>p</mi><mrow><mi>H</mi><mi>O</mi><mi>G</mi></mrow></msubsup><mo>,</mo><msubsup><mi>x</mi><mrow><mi>q</mi><mi>k</mi></mrow><mrow><mi>H</mi><mi>O</mi><mi>G</mi></mrow></msubsup><mo>)</mo><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup></mrow></mtd><mtd><mrow><mn>0</mn><mo>&lt;</mo><msubsup><mi>&omega;</mi><mi>k</mi><mrow><mi>H</mi><mi>O</mi><mi>G</mi></mrow></msubsup><mo>&lt;</mo><mn>1</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000786882760000023.GIF" wi="963" he="93" /></maths>(3.3)计算子图像的预测标签<img file="FDA0000786882760000024.GIF" wi="118" he="78" />对特征值<img file="FDA0000786882760000025.GIF" wi="116" he="77" />的置信度<img file="FDA0000786882760000026.GIF" wi="146" he="83" />以及子图像的预测标签<img file="FDA0000786882760000027.GIF" wi="119" he="84" />对特征值<img file="FDA0000786882760000028.GIF" wi="118" he="82" />的置信度<img file="FDA0000786882760000029.GIF" wi="144" he="82" />其计算公式为<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msubsup><mi>J</mi><mi>p</mi><mrow><mi>H</mi><mi>a</mi><mi>a</mi><mi>r</mi></mrow></msubsup><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msubsup><mi>&omega;</mi><mi>k</mi><mrow><mi>H</mi><mi>a</mi><mi>a</mi><mi>r</mi></mrow></msubsup><msubsup><mi>I</mi><mi>k</mi><mrow><mi>H</mi><mi>a</mi><mi>a</mi><mi>r</mi></mrow></msubsup></mrow>]]></math><img file="FDA00007868827600000210.GIF" wi="454" he="142" /></maths><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msubsup><mi>J</mi><mi>p</mi><mrow><mi>H</mi><mi>O</mi><mi>G</mi></mrow></msubsup><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msubsup><mi>&omega;</mi><mi>k</mi><mrow><mi>H</mi><mi>O</mi><mi>G</mi></mrow></msubsup><msubsup><mi>I</mi><mi>k</mi><mrow><mi>H</mi><mi>O</mi><mi>G</mi></mrow></msubsup></mrow>]]></math><img file="FDA00007868827600000223.GIF" wi="523" he="145" /></maths>其中<img file="FDA00007868827600000211.GIF" wi="113" he="70" />表示<img file="FDA00007868827600000212.GIF" wi="116" he="86" />对应的初始训练样本库的第k个样本图像的标签是否与子图像的预测标签<img file="FDA00007868827600000213.GIF" wi="115" he="86" />一致,若一致,<img file="FDA00007868827600000214.GIF" wi="197" he="71" />否则<img file="FDA00007868827600000215.GIF" wi="184" he="75" />样本图像的标签即表示该样本图像属于正样本还是负样本;<img file="FDA00007868827600000216.GIF" wi="116" he="78" />表示<img file="FDA00007868827600000217.GIF" wi="119" he="78" />对应的初始训练样本库的第k个样本图像的标签是否与子图像的预测标签<img file="FDA00007868827600000218.GIF" wi="119" he="85" />一致,若一致,<img file="FDA00007868827600000219.GIF" wi="190" he="78" />否则<img file="FDA00007868827600000220.GIF" wi="198" he="78" />(3.4)比较步骤(3.3)计算出的<img file="FDA00007868827600000221.GIF" wi="125" he="85" />和<img file="FDA00007868827600000222.GIF" wi="138" he="83" />将大的置信度对应的预测标签以及子图像加入到小的置信度对应的分类器的附加训练样本库中;所述的附加训练样本库中的样本由每次循环过程中加入的子图像及其预测标签构成,附加训练样本库和初始训练样本库共同构成对应分类器的训练样本库;(4).若视频未检测至最后一帧,则利用两分类器各自的训练样本库分别重新训练基于Haar特征的AdaBoost分类器和基于HOG特征的SVM分类器,然后跳转至步骤(3)继续检测下一帧图像;否则,分类器训练完成,可将训练的最终分类器用于实际的交通场景中进行车辆、行人等目标的检测。
地址 100124 北京市朝阳区平乐园100号