发明名称 一种基于双目多维感知特性的立体视频显著性检测方法
摘要 本发明涉及一种基于双目多维感知特性的立体视频显著性检测方法。传统模型方法无法有效的检测出立体视频的显著区域。本发明方法包括显著特征提取和显著特征融合。显著特征提取是从立体视频的空间、深度以及运动三个不同维度的视图信息分别进行显著性计算,包括二维静态显著区域检测、深度显著区域检测、运动显著区域检测。显著特征融合是将已获取的三种不同维度的显著特征图采取全局非线性归一化的融合策略进行融合,进而获取立体视频显著区域。本发明方法计算复杂度低,获取的立体视频显著图质量高,可以直接应用在3D视频压缩,3D质量评估以及物体识别和追踪等工程领域中。
申请公布号 CN105898278A 申请公布日期 2016.08.24
申请号 CN201610363021.9 申请日期 2016.05.26
申请人 杭州电子科技大学 发明人 周洋;何永健;唐杰;张嵩
分类号 H04N13/00(2006.01)I;H04N13/04(2006.01)I;H04N17/00(2006.01)I 主分类号 H04N13/00(2006.01)I
代理机构 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人 杜军
主权项 一种基于双目多维感知特性的立体视频显著性检测方法,包括显著特征提取和显著特征融合,其特征在于:所述的显著特征提取是从立体视频的空间、深度以及运动三个不同维度的视图信息分别进行显著性计算,具体包括三部分:二维静态显著区域检测、深度显著区域检测、运动显著区域检测;其中:二维静态显著区域检测:根据Bayesian模型计算单张彩色图像的空间特征的显著性,检测出彩色图像的二维静态显著区域,具体是:通过计算单点的感兴趣概率的方法来估计物体的显著程度S<sub>Z</sub>:<maths num="0001"><math><![CDATA[<mrow><msub><mi>S</mi><mi>Z</mi></msub><mo>=</mo><mi>p</mi><mo>{</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>|</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mi>z</mi></msub><mo>,</mo><mi>L</mi><mo>=</mo><msub><mi>l</mi><mi>z</mi></msub><mo>}</mo><mo>=</mo><mfrac><mrow><mi>p</mi><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mi>z</mi></msub><mo>,</mo><mi>L</mi><mo>=</mo><msub><mi>l</mi><mi>z</mi></msub><mo>|</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>p</mi><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mi>z</mi></msub><mo>,</mo><mi>L</mi><mo>=</mo><msub><mi>l</mi><mi>z</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0001000617650000011.GIF" wi="1313" he="134" /></maths>式中z表示图像中的某个像素点,p表示相应的概率值,随机变量F表示一个点像素的视觉特征值,随机变量L表示一个像素点的坐标位置;二元随机变量C表示该点像素是否为目标像素,C=1表示为目标像素,C≠1表示不是目标像素;f<sub>z</sub>和l<sub>z</sub>分别表示注视在z点时的视觉特征值以及相应的像素坐标位置;假设在C=1的情况下,该点的视觉特征与空间位置是相互独立的,即有:<maths num="0002"><math><![CDATA[<mrow><msub><mi>S</mi><mi>z</mi></msub><mo>=</mo><mfrac><mrow><mi>p</mi><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mi>z</mi></msub><mo>|</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mi>L</mi><mo>=</mo><msub><mi>l</mi><mi>z</mi></msub><mo>|</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>p</mi><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mi>z</mi></msub><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mi>L</mi><mo>=</mo><msub><mi>l</mi><mi>z</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>=</mo><mfrac><mn>1</mn><mrow><mi>p</mi><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mi>z</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>&CenterDot;</mo><mi>p</mi><mrow><mo>(</mo><mi>F</mi><mo>=</mo><msub><mi>f</mi><mi>z</mi></msub><mo>|</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>p</mi><mrow><mo>(</mo><mi>C</mi><mo>=</mo><mn>1</mn><mo>|</mo><mi>L</mi><mo>=</mo><msub><mi>l</mi><mi>z</mi></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0001000617650000012.GIF" wi="1926" he="134" /></maths>为了在一张图像中方便比较该点的显著概率,将上式进行对数化:log s<sub>z</sub>=‑log p(F=f<sub>z</sub>)+log p(F=f<sub>z</sub>|C=1)+log p(C=1|L=l<sub>z</sub>);式中第一项‑log p(F=f<sub>z</sub>)表示该像素点特征的自信息量,只依赖于z的视觉特征,独立于任何先验信息;第二项log p(F=f<sub>z</sub>|C=1)表示对数似然函数项,用来表示目标的先验信息;第三项log p(C=1|L=l<sub>z</sub>)表示独立于视觉特性,反映目标可能出现位置的先验信息;将上式简化为:log S<sub>z</sub>=‑log p(F=f<sub>z</sub>),通过计算图像各像素点的显著程度S<sub>Z</sub>获取二维静态显著图SM<sub>image</sub>;深度显著区域检测的具体步骤是:①采用DERS软件根据输入的第k帧左视点图和右视点图计算出该帧的视差图,其中视差值d∈[0,255];②根据视差图中的最大视差值d<sub>max</sub>和最小视差值d<sub>min</sub>将视差值归一化到[0,1]区间;如果某像素点的视差值接近d<sub>max</sub>则赋予大的视差值,相反接近d<sub>min</sub>则赋予小的视差值,给前景物体与背景物体赋予不同的显著性得到深度前景图D<sub>foreground</sub>,其中前景物体相对于背景物体更为显著;③利用高斯差分滤波器提取重要的深度感知特征—深度对比度DoG(x,y),实现公式下:<maths num="0003"><math><![CDATA[<mrow><mi>D</mi><mi>o</mi><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>2</mn><msup><mi>&pi;&sigma;</mi><mn>2</mn></msup></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>y</mi><mn>2</mn></msup></mrow><msup><mi>&sigma;</mi><mn>2</mn></msup></mfrac><mo>)</mo></mrow><mo>-</mo><mfrac><mn>1</mn><mrow><mn>2</mn><msup><mi>&pi;K</mi><mn>2</mn></msup><msup><mi>&sigma;</mi><mn>2</mn></msup></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>y</mi><mn>2</mn></msup></mrow><mrow><mn>2</mn><msup><mi>K</mi><mn>2</mn></msup><msup><mi>&sigma;</mi><mn>2</mn></msup></mrow></mfrac><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0001000617650000021.GIF" wi="1246" he="127" /></maths>其中(x,y)代表滤波器位置,σ和K分别用来控制滤波器的尺度和高斯核的半径比,将经DoG滤波后的深度图作为深度对比度图D<sub>constrast</sub>;④将获取的深度前景图D<sub>foreground</sub>和深度对比度图D<sub>constrast</sub>进行线性加权融合,获取深度显著图SM<sub>depth</sub>:SM<sub>depth</sub>=ω<sub>1</sub>D<sub>foreground</sub>+ω<sub>2</sub>D<sub>constrast</sub>;其中:ω<sub>1</sub>和ω<sub>2</sub>分别为D<sub>foreground</sub>和D<sub>constrast</sub>的权重;运动显著区域检测:根据当前帧的二维静态显著图SM<sub>image</sub>和深度显著图SM<sub>depth</sub>中的显著区域采用光流法提取相邻帧间运动矢量,获取运动显著图SM<sub>motion</sub>,具体步骤是:a.对二维静态显著图SM<sub>image</sub>和深度显著图SM<sub>depth</sub>进行二值化:<img file="FDA0001000617650000022.GIF" wi="902" he="145" /><img file="FDA0001000617650000023.GIF" wi="893" he="150" />式中,T<sub>image</sub>和T<sub>depth</sub>分别为SM<sub>image</sub>和SM<sub>depth</sub>的二值化处理的门限值,最佳门限值通过大津算法获取,SM′<sub>image</sub>和SM′<sub>depth</sub>为经过二值化处理后的显著图,其中显著区域的像素值为1,不显著区域的像素值为0;然后将SM′<sub>image</sub>和SM′<sub>depth</sub>代入下式中来确定当前帧图像的光流计算区域S′(x,y):<maths num="0004"><math><![CDATA[<mrow><msup><mi>S</mi><mo>&prime;</mo></msup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>SM</mi><mrow><mi>i</mi><mi>m</mi><mi>a</mi><mi>g</mi><mi>e</mi></mrow><mo>&prime;</mo></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>+</mo><msubsup><mi>SM</mi><mrow><mi>d</mi><mi>e</mi><mi>p</mi><mi>t</mi><mi>h</mi></mrow><mo>&prime;</mo></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>&CenterDot;</mo><mi>S</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0001000617650000031.GIF" wi="942" he="126" /></maths>式中S(x,y)表示当前帧原视图中像素点(x,y)处的灰度值;b.根据划分的显著区域利用Lucas‑Kanade微分光流算法计算相邻帧的运动;假设连续时间内像素点的灰度值恒定不变,特征点邻域内做相似运动,对显著区域所有像素求解基本光流方程:I<sub>x</sub>V<sub>x</sub>+I<sub>y</sub>V<sub>y</sub>=‑I<sub>t</sub>;式中V<sub>x</sub>,V<sub>y</sub>分别表示光流矢量沿x,y两个方向分量,I<sub>x</sub>,I<sub>y</sub>,I<sub>t</sub>分别表示像素点沿x,y,t三个方向的偏导数,矢量形式表达式为:<img file="FDA0001000617650000037.GIF" wi="342" he="70" />式中<img file="FDA0001000617650000036.GIF" wi="299" he="71" />是该点的梯度方向,符号T代表转置,<img file="FDA0001000617650000033.GIF" wi="230" he="79" />为该点的光流,联立n个光流方程采用最小二乘法求解x,y方向的速度:<img file="FDA0001000617650000034.GIF" wi="813" he="230" />得到:<img file="FDA0001000617650000035.GIF" wi="422" he="165" />通过上述方程计算显著区域的光流进而获取运动显著图SM<sub>motion</sub>;所述的显著特征融合是将已获取的三种不同维度的显著特征图SM<sub>image</sub>、SM<sub>depth</sub>、SM<sub>motion</sub>采取全局非线性归一化的融合策略进行融合,进而获取立体视频显著区域;具体步骤是:(1)将已获取的种不同维度的显著图归一化到一个相同的0到1区间的动态范围内;(2)计算每张显著图的全局最大值M<sub>i</sub>以及所有局部极大值的平均值<img file="FDA0001000617650000042.GIF" wi="79" he="61" />i=image,depth,motion,其中M<sub>i</sub>通过计算视差直方图可获取,<img file="FDA0001000617650000043.GIF" wi="51" he="54" />是先通过matlab中的差分函数计算出局部极大值,然后再取其平均值;(3)将归一化后的显著图与其相乘,计算公式如下:<maths num="0005"><math><![CDATA[<mrow><mi>S</mi><mi>M</mi><mo>=</mo><munder><mi>&Sigma;</mi><mi>i</mi></munder><mo>&lsqb;</mo><mrow><mo>(</mo><mi>N</mi><mo>(</mo><mrow><msub><mi>SM</mi><mi>i</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow><mo>&CenterDot;</mo><msup><mrow><mo>(</mo><mrow><msub><mi>M</mi><mi>i</mi></msub><mo>-</mo><msub><mi>m</mi><mi>i</mi></msub></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>&rsqb;</mo><mo>,</mo><mi>i</mi><mo>=</mo><mi>i</mi><mi>m</mi><mi>a</mi><mi>g</mi><mi>e</mi><mo>,</mo><mi>d</mi><mi>e</mi><mi>p</mi><mi>t</mi><mi>h</mi><mo>,</mo><mi>m</mi><mi>o</mi><mi>t</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>;</mo></mrow>]]></math><img file="FDA0001000617650000041.GIF" wi="1326" he="103" /></maths>式中N(SM<sub>i</sub>)表示归一化操作,即把不同的显著图都归一化到[0,1]区间,其中权重通过计算该图中全局最大值M<sub>i</sub>与所有局部极大值的平均值<img file="FDA0001000617650000044.GIF" wi="51" he="58" />的差值,当二者差值很大时,表明该显著图中的显著特征更为明显,赋予大的权重;当差值很小的时候,表明该显著图的显著特征更为均匀,赋予较小的权重进行抑制,取(M<sub>i</sub>‑m<sub>i</sub>)<sup>2</sup>作为每张显著图的权重值;通过临近相似特征相互抑制的方式来近似模拟生物神经抑制机制,融合三个不同维度的显著特征来获取立体视频的显著区域。
地址 310018 浙江省杭州市下沙高教园区2号大街