发明名称 一种融合运动信息与几何信息的深度提取方法
摘要 本发明公开了一种融合运动信息与几何信息的深度提取方法,包括如下步骤:(1)对每一帧二维视频图像做场景分割,分离静态背景与动态前景;(2)对场景分割图做二值化和滤波处理;(3)基于几何信息产生静态背景的几何深度图;(4)计算前景物体的运动矢量,并换算成运动幅度;(5)根据前景物体所处位置,对其运动幅度做线性变换,得到运动深度图;(6)融合运动深度图和几何深度图,并滤波得到最终深度图。本发明只对分离出的动态前景物体计算运动矢量,消除了背景误匹配点,减少了计算量;同时根据前景物体所处位置线性变换其运动幅度,使之融入到背景深度中,整体提高了深度图的质量。
申请公布号 CN101640809B 申请公布日期 2010.11.03
申请号 CN200910102153.6 申请日期 2009.08.17
申请人 浙江大学 发明人 黄晓军;黄俊钧;王梁昊;李东晓;张明
分类号 H04N13/00(2006.01)I;G06T7/00(2006.01)I;G06T7/20(2006.01)I 主分类号 H04N13/00(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 1.一种融合运动信息与几何信息的深度提取方法,其特征在于包括如下步骤:(1)对待转换二维视频建立统计背景模型,通过运动目标检测,分离出静止背景部分和运动前景部分;(2)对分离出静止背景部分和运动前景部分的图像二值化,并进行中值滤波和数学形态学滤波;(3)对统计背景建模得到的背景图像采用基于场景几何信息的方法产生几何深度图;(4)通过从原始待转换二维视频在时间上相邻的两帧图像之间寻找匹配,得到运动前景物体的运动矢量,并换算成运动幅度;(5)根据运动前景部分所处位置,对其运动幅度做线性变换,得到运动深度图;(6)融合运动深度图和几何深度图,并进行高斯滤波,得到最终深度图,用于三维视频的表达;其中,所述的对待转换二维视频建立统计背景模型,通过运动目标检测,分离出静止背景部分和运动前景部分步骤为:(a)在待转换的二维视频文件中截取连续的N帧图像,对这N帧图像I<sub>f</sub>(x,y)进行时间和空间上的扫描,求得对应于每一个像素坐标位置的N个像素值的均值作为背景图像B(x,y)在这一位置上的像素值,计算公式如下:<maths num="0001"><![CDATA[<math><mrow><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>f</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>I</mi><mi>f</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>(b)用步骤(a)中得到的背景图像B(x,y)与待转换二维视频的每一帧图像I<sub>f</sub>(x,y)做减法,通过与一个预先设定的阈值th进行比较来确定图像中的前景点,表示公式如下:<maths num="0002"><![CDATA[<math><mrow><msub><mi>I</mi><mi>f</mi></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>Background</mi></mtd><mtd><mo>|</mo><msub><mi>I</mi><mi>f</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>-</mo><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo><mo>&lt;</mo><mi>th</mi></mtd></mtr><mtr><mtd><mi>Foreground</mi></mtd><mtd><mi>otherwise</mi></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>所述的对分离出静止背景部分和运动前景部分的图像二值化,并进行中值滤波和数学形态学滤波步骤为:(c)利用步骤(b)作出的前后景判断,为视频中每一帧图像I<sub>f</sub>(x,y)产生一幅二值图像,其中0值表示背景,255值表示前景,即:<maths num="0003"><![CDATA[<math><mrow><msubsup><mi>I</mi><mi>f</mi><mn>1</mn></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>I</mi><mi>f</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mi>is Backaround</mi></mtd></mtr><mtr><mtd><mn>255</mn></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>I</mi><mi>f</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mi>is Foreground</mi></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>(d)对步骤(c)得到的二值图像进行3×3窗口大小的中值滤波,消除背景噪声;(e)对步骤(d)得到的中值滤波后的图像进行数学形态学滤波中典型的开运算和闭运算,消除前景图像中小面积的活动区域和空洞,采用3×3方型腐蚀元和膨胀元完成开运算和闭运算;所述的对统计背景建模得到的背景图像采用基于场景几何信息的方法产生几何深度图步骤为:(f)对步骤(a)得到的背景图像的亮度分量B<sub>y</sub>(x,y)用Sobel算子进行边缘检测,得到水平梯度图S<sub>x</sub>(x,y)和垂直梯度图S<sub>y</sub>(x,y),将这两幅图相加得到梯度图S(x,y),与阈值Th做比较,得到二值化的背景边缘检测图,阈值Th的选取按照如下公式计算:Th=α·[S(x,y)<sub>max</sub>-S(x,y)<sub>min</sub>]+S(x,y)<sub>min</sub>其中,α是取值在0~1之间的权重系数,S(x,y)<sub>max</sub>是梯度图最大像素值,S(x,y)<sub>min</sub>是梯度图最小像素值;(g)采用图像处理中经典的Hough变换对步骤(f)得到的二值化边缘检测图提取其中的主要直线,其结果与原始的二值化边缘检测图做“与”操作,提取出背景中的灭线,灭线交点出现概率最大的区域的中点作为灭点;(h)以步骤(g)中得到的灭点作为背景中深度最深点,沿灭线往灭点方向深度以级差2的速率逐渐加深,得到背景图像的几何深度图G(x,y);所述的通过从原始待转换二维视频在时间上相邻的两帧图像之间寻找匹配,得到运动前景物体的运动矢量,并换算成运动幅度步骤为:(i)扫描待转换二维视频中的当前时刻图像帧I<sub>f</sub>(x,y),根据步骤(e)得到的滤波过的前后景分离二值图像,判断若当前像素点是前景点,则为其在当前时刻的前一时刻图像帧I<sub>f-1</sub>(x,y)上寻找最佳匹配像素点,采用在以当前像素点为中心的W×W邻域窗口内计算匹配代价的方法,以提高匹配的精确性,设匹配搜索范围S<sub>N×N</sub>大小为N×N,u和v分别是在寻找匹配时当前帧上像素在前一时刻图像帧上的水平偏移量和垂直偏移量,i和j分别是以当前像素点为中心的W×W邻域内的水平偏移量和垂直偏移量,定义匹配代价如下:<maths num="0004"><![CDATA[<math><mrow><mi>C</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>;</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mrow><mo>(</mo><mi>w</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>/</mo><mn>2</mn></mrow><mrow><mrow><mo>(</mo><mi>w</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>/</mo><mn>2</mn></mrow></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mo>-</mo><mrow><mo>(</mo><mi>w</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>/</mo><mn>2</mn></mrow><mrow><mrow><mo>(</mo><mi>w</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>/</mo><mn>2</mn></mrow></munderover><mo>|</mo><msub><mi>I</mi><mi>f</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>i</mi><mo>,</mo><mi>y</mi><mo>+</mo><mi>i</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>I</mi><mrow><mi>f</mi><mo>-</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>u</mi><mo>+</mo><mi>i</mi><mo>,</mo><mi>y</mi><mo>+</mo><mi>v</mi><mo>+</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo></mrow></math>]]></maths>(x,y)∈foreground,(u,v)∈S<sub>N×N</sub>,f=1,2,3……遍历当前像素点搜索范围内的每一个像素点,计算相应的匹配代价,找出其中具有最小匹配代价的水平偏移量和垂直偏移量,以之作为当前像素点的运动矢量,水平MV<sub>x</sub>,垂直MV<sub>y</sub>,公式表示如下:C<sub>min</sub>(x,y;MV<sub>x</sub>,MV<sub>y</sub>)=Min[C(x,y;u,v)];(j)设步骤(i)中得到的每一个前景像素点的运动矢量水平方向分量为MV<sub>x</sub>(x,y),垂直方向分量为MV<sub>y</sub>(x,y),运动幅度定义为:<maths num="0005"><![CDATA[<math><mrow><mi>F</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msqrt><msubsup><mi>MV</mi><mi>x</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>+</mo><msubsup><mi>MV</mi><mi>y</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></msqrt><mo>;</mo></mrow></math>]]></maths>所述的根据运动前景部分所处位置,对其运动幅度做线性变换,得到运动深度图步骤为:(k)对步骤(j)中得到的运动幅度做线性变换和向下取整运算,确保运动深度图的每一个前景像素点的取值范围在[a,b],且为整数,线性变换公式如下:<img file="FSB00000197132600033.GIF" wi="1163" he="123" />其中,线性变换下限a与上限b取值均在0~255之间,a取运动前景遮挡住的背景部分几何深度图的最小深度值,b取运动前景部分最低点对应背景部分几何深度图的深度值;在于所述的融合运动深度图和几何深度图,并进行高斯滤波,得到最终深度图步骤为:(l)根据步骤(e)得到的滤波过的前后景分离二值图像A(x,y),对步骤(k)得到的运动深度图M(x,y)和步骤(h)得到的几何深度图G(x,y)进行融合,得到融合深度图D(x,y),融合公式定义如下:<maths num="0006"><![CDATA[<math><mrow><mi>D</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>M</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mtd><mtd><mi>A</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mn>255</mn></mtd></mtr><mtr><mtd><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mtd><mtd><mi>A</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mn>0</mn></mtd></mtr></mtable></mfenced><mo>:</mo></mrow></math>]]></maths>(m)对步骤(1)得到的融合深度图进行高斯滤波,得到最终深度图,用于三维视频的表达。
地址 310027 浙江省杭州市浙大路38号