发明名称 全景视频序列图像的多目标对象跟踪系统
摘要 一种全景视频序列图像的多目标对象跟踪系统,包括用于获取大范围场景的全方位摄像装置和用于对全方位摄像装置所拍摄的全景图像进行视频分析处理的微处理器;在运动目标对象提取和简单多目标对象跟踪处理过程中,采用了一种计算复杂度不高、参数和阈值选取比较简单、便于在片上系统中实现的MHoEI算法;为了实现多目标对象在场景中发生遮挡、分离和合并等情况时进行有效的跟踪,依次根据匹配的结果分别通过目标对象的运动特征、颜色特征和形状特征进行跟踪,在改善了跟踪效率的同时也提高了多目标对象跟踪的鲁棒性。
申请公布号 CN102999918B 申请公布日期 2015.04.22
申请号 CN201210116956.9 申请日期 2012.04.19
申请人 浙江工业大学 发明人 汤一平;严杭晨;田旭园;马宝庆;孟焱;叶良波;俞立
分类号 G06T7/20(2006.01)I;H04N9/04(2006.01)I;H04N5/14(2006.01)I 主分类号 G06T7/20(2006.01)I
代理机构 杭州天正专利事务所有限公司 33201 代理人 王兵;王利强
主权项 一种全景视频序列图像的多目标对象跟踪系统,其特征在于:所述全景视频序列图像的多目标对象跟踪系统包括用以捕获到整个场景内目标对象的全景视频图像的全方位摄像装置,所述全方位摄像装置用ODVS表示,所述ODVS安置在监控场景的中部上方,所述ODVS通过USB接口与微处理器进行连接;所述的微处理器通过计算机网络与PC机进行连接;所述的微处理器包括:视频图像读取单元,用于通过USB接口读取ODVS所拍摄的全景图像,并将读取的全景图像提交给视频图像展开单元和视频图像存储单元;视频图像展开单元,用于将全景图像进行柱状展开,展开后的全景柱状图像提交给目标对象检测单元;目标对象检测跟踪单元,用于检测在全景柱状展开图像中存在的移动目标对象,并用矩形框框住目标对象,用一种Motion History or Energy Images算法,以下简称MHoEI算法,用目标对象的运动历史和能量图像来提取和跟踪目标对象;所述的PC主要进行全景视频图像的形式化处理和行为语义化处理,多目标对象跟踪单元用于多目标对象在场景中发生遮挡、分离和合并等情况时进行有效的跟踪;所述的视频图像展开单元,用于将全景图像进行柱状展开,展开后的全景柱状图像提交给所述的目标对象检测跟踪单元;所述的目标对象检测跟踪单元,用于检测和跟踪在全景柱状展开图像中存在的运动目标对象,采用MHoEI算法对目标对象的运动历史和能量图像来提取和跟踪目标对象,得到感兴趣区域ROI、区域的质心坐标值以及区域框的大小值;这些目标对象的提取和跟踪数据并同全景视频图像以软件接口的方式通过网络递交给所述的多目标对象跟踪单元进行处理;所述的多目标对象跟踪单元,用于多目标对象在场景中发生遮挡、分离和合并等情况时进行有效的跟踪;所述的目标对象检测跟踪单元,为了实现运动目标对象有效分割和在分割的同时消除运动目标所产生的阴影,在进行帧差法过程中利用阴影与非阴影区域区别的某些特征来消除阴影,主要依据阴影区域中像素的色度与背景像素色度相比几乎相等的特征,将原图像的RGB色彩空间转化成HSI色彩空间,然后再进行帧差法运算就能消除阴影,RGB色彩空间转化成HSI色彩空间的计算方法如公式(7)所示,<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>H</mi><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>&theta;</mi><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>G</mi><mo>&GreaterEqual;</mo><mi>B</mi></mtd></mtr><mtr><mtd><mn>2</mn><mi>&pi;</mi><mo>-</mo><mi>&theta;</mi><mo>.</mo><mo>.</mo><mo>.</mo><mi>G</mi><mo>&lt;</mo><mi>B</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000657620850000021.GIF" wi="515" he="168" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>S</mi><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mn>3</mn><mrow><mo>(</mo><mi>R</mi><mo>+</mo><mi>G</mi><mo>+</mo><mi>B</mi><mo>)</mo></mrow></mfrac><mo>[</mo><mi>min</mi><mrow><mo>(</mo><mi>R</mi><mo>,</mo><mi>G</mi><mo>,</mo><mi>B</mi><mo>)</mo></mrow><mo>]</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000657620850000022.GIF" wi="1666" he="150" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>&theta;</mi><mo>=</mo><mi>arccos</mi><mo>{</mo><mfrac><mrow><mo>[</mo><mrow><mo>(</mo><mi>R</mi><mo>-</mo><mi>G</mi><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mi>R</mi><mo>-</mo><mi>B</mi><mo>)</mo></mrow><mo>]</mo><mo>/</mo><mn>2</mn></mrow><mrow><mo>[</mo><msup><mrow><mo>(</mo><mi>R</mi><mo>-</mo><mi>G</mi><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><mrow><mo>(</mo><mi>R</mi><mo>-</mo><mi>B</mi><mo>)</mo></mrow><mrow><mo>(</mo><mi>G</mi><mo>-</mo><mi>B</mi><mo>)</mo></mrow><msup><mo>]</mo><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mo>}</mo></mrow>]]></math><img file="FDA0000657620850000023.GIF" wi="1019" he="175" /></maths>式中,R是RGB色彩空间中的红色分量,G是RGB色彩空间中的绿色分量,B是RGB色彩空间中的蓝色分量;H为HSI色彩空间中的色调,用角度表示,反映了颜色最接近什么样的光谱波长;S为HSI色彩空间中的饱和度,表征颜色的深浅程度;色调H与饱和度S合起来称色度;对于距离ODVS的远处的目标对象,分别在H分量和S分量上进行帧差法处理,其计算公式如(8)所示,<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>IP</mi><mrow><mi>L</mi><mo>,</mo><mi>H</mi></mrow></msub><mi>Im age</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>if</mi><mo>|</mo><msub><mi>Pix</mi><mrow><mi>H</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>Pix</mi><mrow><mi>H</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>3</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo><mo>></mo><mi>Threshold</mi><mn>1</mn></mtd></mtr><mtr><mtd><mn>0</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>else</mi></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000657620850000024.GIF" wi="1689" he="166" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>IP</mi><mrow><mi>L</mi><mo>,</mo><mi>S</mi></mrow></msub><mi>Im age</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>if</mi><mo>|</mo><msub><mi>pix</mi><mrow><mi>S</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>Pix</mi><mrow><mi>S</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>3</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo><mo>></mo><mi>Threshold</mi><mn>1</mn></mtd></mtr><mtr><mtd><mn>0</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>else</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000657620850000025.GIF" wi="1342" he="162" /></maths>式中,IP<sub>L,H</sub>Image(i,j)为当前输入全景图像帧中的上部H颜色分量的坐标为(i,j)点的检测结果,IP<sub>L,S</sub>Image(i,j)为当前输入全景图像帧中的上部S颜色分量的坐标为(i,j)点的检测结果,用二值图表示,1表示前景运动目标,0表示背景,Pix<sub>H,t</sub>(i,j)和Pix<sub>H,t‑3</sub>(i,j)分别表示全景视频图像的上部H颜色分量在第t时刻和第t‑3时刻图像帧中坐标为(i,j)点的像素值,Pix<sub>S,t</sub>(i,j)和Pix<sub>S,t‑3</sub>(i,j)分别表示全景视频图像的上部S颜色分量在第t时刻和第t‑3时刻图像帧中坐标为(i,j)点的像素值,Threshold1是相应的判断阈值,这里取值为45;对于距离ODVS的中远处的目标对象,分别在H分量和S分量上进行帧差法处理,其计算公式如(9)所示,<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msub><mi>IP</mi><mrow><mi>M</mi><mo>,</mo><mi>H</mi></mrow></msub><mi>Im age</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>if</mi><mo>|</mo><msub><mi>Pix</mi><mrow><mi>H</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>Pix</mi><mrow><mi>H</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>2</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo><mo>></mo><mi>Threshold</mi><mn>2</mn></mtd></mtr><mtr><mtd><mn>0</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>else</mi></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000657620850000031.GIF" wi="1761" he="179" /></maths><maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msub><mi>IP</mi><mrow><mi>M</mi><mo>,</mo><mi>S</mi></mrow></msub><mi>Im age</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>if</mi><mo>|</mo><msub><mi>Pix</mi><mrow><mi>S</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>Pix</mi><mrow><mi>S</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>2</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo><mo>></mo><mi>Threshold</mi><mn>2</mn></mtd></mtr><mtr><mtd><mn>0</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>else</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000657620850000032.GIF" wi="1489" he="178" /></maths>式中,IP<sub>M,H</sub>Image(i,j)为当前输入全景图像帧中的中部H颜色分量的坐标为(i,j)点的检测结果,IP<sub>M,S</sub>Image(i,j)为当前输入全景图像帧中的中部S颜色分量的坐标为(i,j)点的检测结果,用二值图表示,1表示前景运动目标,0表示背景,Pix<sub>H,t</sub>(i,j)和Pix<sub>H,t‑2</sub>(i,j)分别表示全景视频图像的中部H颜色分量在第t时刻和第t‑2时刻图像帧中坐标为(i,j)点的像素值,Pix<sub>S,t</sub>(i,j)和Pix<sub>S,t‑2</sub>(i,j)分别表示全景视频图像的中部S颜色分量在第t时刻和第t‑2时刻图像帧中坐标为(i,j)点的像素值,Threshold2是相应的判断阈值,这里取值为45;对于距离ODVS的近处的目标对象,分别在H分量和S分量上进行帧差法处理,其计算公式如(10)所示,<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><msub><mi>IP</mi><mrow><mi>N</mi><mo>,</mo><mi>H</mi></mrow></msub><mi>Im age</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>if</mi><mo>|</mo><msub><mi>Pix</mi><mrow><mi>H</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>Pix</mi><mrow><mi>H</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo><mo>></mo><mi>Threshold</mi><mn>3</mn></mtd></mtr><mtr><mtd><mn>0</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>else</mi></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000657620850000033.GIF" wi="1774" he="181" /></maths><maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><msub><mi>IP</mi><mrow><mi>M</mi><mo>,</mo><mi>S</mi></mrow></msub><mi>Im age</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>if</mi><mo>|</mo><msub><mi>Pix</mi><mrow><mi>S</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>Pix</mi><mrow><mi>S</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo><mo>></mo><mi>Threshold</mi><mn>3</mn></mtd></mtr><mtr><mtd><mn>0</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>else</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000657620850000034.GIF" wi="1473" he="181" /></maths>式中,IP<sub>N,H</sub>Image(i,j)为当前输入全景图像帧中的下部H颜色分量的坐标为(i,j)点的检测结果,IP<sub>N,S</sub>Image(i,j)为当前输入全景图像帧中的下部S颜色分量的坐标为(i,j)点的检测结果,用二值图表示,1表示前景运动目标,0表示背景,Pix<sub>H,t</sub>(i,j)和Pix<sub>H,t‑1</sub>(i,j)分别表示全景视频图像的中部H颜色分量在第t时刻和第t‑1时刻图像帧中坐标为(i,j)点的像素值,Pix<sub>S,t</sub>(i,j)和Pix<sub>S,t‑1</sub>(i,j)分别表示全景视频图像的中部S颜色分量在第t时刻和第t‑1时刻图像帧中坐标为(i,j)点的像素值,Threshold3是相应的判断阈值,这里取值为45;最后,对于分割后的目标对象拼合整理处理;一方面,由于色度主要由色调H与饱和度S两个部分构成,这里需要进行或运算处理;另一方面,在P4、P5和P6处理过程中将整幅全景图像分割为上、中、下三个部分,这里也需要进行或运算处理;经过这样处理得到整幅全景图像上的运动目标对象的分割图像,处理方法如公式(11)所示,D(x,y,t)=IP<sub>L,H</sub>Image(i,j)∨IP<sub>L,S</sub>Image(i,j)∨IP<sub>M,H</sub>Image(i,j)∨IP<sub>M,S</sub>Image(i,j)∨IP<sub>N,H</sub>Image(i,j)∨IP<sub>N,S</sub>Image(i,j)          (11)式中,D(x,y,t)为当前输入全景图像帧中坐标为(i,j)点的检测结果,IP<sub>N,H</sub>Image(i,j)为当前输入全景图像帧中的下部H颜色分量的坐标为(i,j)点的检测结果,IP<sub>N,S</sub>Image(i,j)为当前输入全景图像帧中的下部S颜色分量的坐标为(i,j)点的检测结果,IP<sub>M,H</sub>Image(i,j)为当前输入全景图像帧中的中部H颜色分量的坐标为(i,j)点的检测结果,IP<sub>M,S</sub>Image(i,j)为当前输入全景图像帧中的中部S颜色分量的坐标为(i,j)点的检测结果,IP<sub>L,H</sub>Image(i,j)为当前输入全景图像帧中的上部H颜色分量的坐标为(i,j)点的检测结果,IP<sub>L,S</sub>Image(i,j)为当前输入全景图像帧中的上部S颜色分量的坐标为(i,j)点的检测结果。
地址 310014 浙江省杭州市下城区潮王路18号