发明名称 一种多视点深度视频处理方法
摘要 本发明公开了一种多视点深度视频处理方法,其首先通过对深度视频进行重组变换操作,然后将变换操作后的深度视频在时域上进行平滑处理,再对平滑处理后的深度视频进行重组逆变换操作,得到预处理后的深度视频,对预处理后的多视点深度视频进行编码压缩、解码重建操作,再对解码重建后的多视点深度视频进行深度恢复及空域平滑处理,最后利用处理后的多视点深度视频绘制虚拟视点视频图像,优点在于这种预处理方式能够提高深度视频序列的时域相关性,进而有效提高深度视频的编码效率,在编码QP=22、27、32、37的情况下,可以节省编码码率达到17.07%~38.29%,绘制得到的虚拟视点视频图像的绘制质量可提高约为0.05dB。
申请公布号 CN102769746A 申请公布日期 2012.11.07
申请号 CN201210223251.7 申请日期 2012.06.27
申请人 宁波大学 发明人 蒋刚毅;钱健;郁梅;朱林卫;邵枫;彭宗举;白霞
分类号 H04N7/26(2006.01)I;H04N7/30(2006.01)I;H04N13/00(2006.01)I 主分类号 H04N7/26(2006.01)I
代理机构 宁波奥圣专利代理事务所(普通合伙) 33226 代理人 周珏
主权项 1.一种多视点深度视频处理方法,其特征在于它的处理过程为:对待处理的原始多视点深度视频进行预处理,以降低编码码率;然后对预处理后的多视点深度视频进行编码压缩、解码重建操作;再对解码重建后的多视点深度视频进行深度恢复及空域平滑处理;最后利用处理后的多视点深度视频绘制虚拟视点视频图像;其中,对解码重建后的多视点深度视频进行深度恢复及空域平滑处理的具体过程为:①将解码重建后的多视点深度视频中当前正在处理的第k帧深度图像定义为当前深度图像,并记为D'(W,H,k),其中,1≤k≤K,在此K表示解码重建后的多视点深度视频中包含的深度图像的帧数,W表示解码重建后的多视点深度视频中的深度图像的水平分辨率,H表示解码重建后的多视点深度视频中的深度图像的竖直分辨率,W×H表示解码重建后的多视点深度视频中的深度图像的分辨率;②根据对应的原始多视点彩色视频中与当前深度图像D'(W,H,k)对应的彩色图像C(W,H,k)的边界掩膜M(W,H,k)中的每个像素点的像素值,对当前深度图像D'(W,H,k)中的像素点进行深度恢复处理,然后对当前深度图像D'(W,H,k)中经深度恢复后的每个像素点进行空域平滑处理,对于当前深度图像D'(W,H,k)中坐标位置为(x,y)的像素点,判断M(W,H,k)中坐标位置为(x,y)的像素点的像素值m(x,y,k)是否为1,即判断M(W,H,k)中坐标位置为(x,y)的像素点是否为边界像素点,如果是,则对当前深度图像D'(W,H,k)中坐标位置为(x,y)的像素点进行深度恢复处理,得到深度恢复后的像素值,记为d″(x,y,k),<maths num="0001"><![CDATA[<math><mrow><msup><mi>d</mi><mrow><mo>&prime;</mo><mo>&prime;</mo></mrow></msup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>w</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></munder><mrow><mo>(</mo><msup><mi>d</mi><mo>&prime;</mo></msup><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>&times;</mo><msub><mi>C</mi><mi>sum</mi></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>w</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></munder><msub><mi>C</mi><mi>sum</mi></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>然后采用三边滤波对当前深度图像D'(W,H,k)中经深度恢复后的坐标位置为(x,y)的像素点进行空域平滑处理,得到空域平滑后的像素值,记为d*(x,y,k),<maths num="0002"><![CDATA[<math><mrow><mi>d</mi><mo>*</mo><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>w</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></munder><mrow><mo>(</mo><mi>&omega;</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>&times;</mo><msup><mi>d</mi><mrow><mo>&prime;</mo><mo>&prime;</mo></mrow></msup><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>w</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></munder><mi>&omega;</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>否则,对当前深度图像D'(W,H,k)中坐标位置为(x,y)的像素点不进行深度恢复处理,即当前深度视频D'(W,H,k)中坐标位置为(x,y)的像素点经深度恢复处理后的像素值d″(x,y,k)=d'(x,y,k),然后采用双边滤波对当前深度视频D'(W,H,k)中坐标位置为(x,y)的像素点进行空域平滑处理,得到空域平滑后的像素值,记为d*(x,y,k),<maths num="0003"><![CDATA[<math><mrow><mi>d</mi><mo>*</mo><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>w</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></munder><mrow><mo>(</mo><msub><mi>&omega;</mi><mn>1</mn></msub><mi></mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>&times;</mo><msub><mi>&omega;</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>&times;</mo><msup><mi>d</mi><mrow><mo>&prime;</mo><mo>&prime;</mo></mrow></msup><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>w</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></munder><msub><mi>&omega;</mi><mn>1</mn></msub><mi></mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>&times;</mo><msub><mi>&omega;</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></maths>其中,1≤x≤W,1≤y≤H,w(x,y)表示当前深度图像D'(W,H,k)中以坐标位置(x,y)为中心的邻域窗口,d'(a,b,k)表示当前深度图像D'(W,H,k)中坐标位置为(a,b)的像素点的像素值,C<sub>sum</sub>(a,b,k)表示当前深度图像D'(W,H,k)中坐标位置为(a,b)的像素点在深度恢复时的权值,C<sub>sum</sub>(a,b,k)=C<sub>0</sub>(a,b,k)×(α×S<sub>d</sub>(a,b,k)+(1-α)×S<sub>c</sub>(a,b,k)),<maths num="0004"><![CDATA[<math><mrow><msub><mi>C</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msub><mi>N</mi><mi>freq</mi></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac><mo>&times;</mo><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>freq</mi></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>-</mo><mn>1</mn></mrow></munderover><mo>|</mo><mrow><mo>(</mo><mi>a</mi><mo>-</mo><msub><mi>x</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mi>b</mi><mo>-</mo><msub><mi>y</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>|</mo></mrow></math>]]></maths><img file="FDA00001814347800023.GIF" wi="839" he="87" />w(a,b)表示当前深度图像D'(W,H,k)中以坐标位置(a,b)为中心的邻域窗口,δ[d'(a,b,k),d'(x<sub>1</sub>,y<sub>1</sub>,k)]表示当前深度视频D'(W,H,k)中坐标位置为(a,b)的像素点的像素值d'(a,b,k)与当前深度视频D'(W,H,k)中坐标位置为(x<sub>1</sub>,y<sub>1</sub>)的像素点的像素值d'(x<sub>1</sub>,y<sub>1</sub>,k)的相似度值,<img file="FDA00001814347800024.GIF" wi="948" he="117" />x<sub>0</sub>(l)表示w(a,b)内与中心像素点的像素值d'(a,b,k)相等的邻域像素点的横坐标,y<sub>0</sub>(l)表示w(a,b)内与中心像素点的像素值d'(a,b,k)相等的邻域像素点的纵坐标,S<sub>d</sub>(a,b,k)=|d'(a,b,k)-d'(x<sub>1</sub>,y<sub>1</sub>,k)|,Sc(a,b,k)=|c(a,b,k)-c(x<sub>1</sub>,y<sub>1</sub>,k)|,c(a,b,k)表示C(W,H,k)中坐标位置为(a,b)的像素点的像素值,c(x<sub>1</sub>,y<sub>1</sub>,k)表示C(W,H,k)中坐标位置为(x<sub>1</sub>,y<sub>1</sub>)的像素点的像素值,α表示深度信息权值,0≤α≤1,符号“||”为取绝对值符号,ω(a,b,k)表示当前深度图像D'(W,H,k)中坐标位置为(a,b)的像素点在三边滤波时的权值,ω(a,b,k)=ω<sub>1</sub>(a,b,k)×ω<sub>2</sub>(a,b,k)×ω<sub>3</sub>(a,b,k),<img file="FDA00001814347800025.GIF" wi="776" he="109" /><maths num="0005"><![CDATA[<math><mrow><msub><mi>&omega;</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><msup><mrow><mo>(</mo><msub><mi>d</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>h</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>d</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>h</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><msubsup><mrow><mn>2</mn><mi>&sigma;</mi></mrow><mn>2</mn><mn>2</mn></msubsup></mfrac><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths><maths num="0006"><![CDATA[<math><mrow><msub><mi>&omega;</mi><mn>3</mn></msub><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><msup><mrow><mo>(</mo><mi>c</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>-</mo><mi>c</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>k</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><msubsup><mrow><mn>2</mn><mi>&sigma;</mi></mrow><mn>3</mn><mn>2</mn></msubsup></mfrac><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>exp()表示以e=2.718281828为底的指数函数,d<sub>1</sub>(a,b,h)表示原始多视点深度视频经重组变换后得到的多视点深度视频中的第h帧深度图像中坐标位置为(a,b)的像素点的像素值,d<sub>1</sub>(x,y,h)表示原始多视点深度视频经重组变换后得到的多视点深度视频中的第h帧深度图像中坐标位置为(x,y)的像素点的像素值,1≤h≤H  ,此处在“<img file="FDA00001814347800033.GIF" wi="739" he="110" />”中k的具体值与h的具体值相同,c(x,y,k)表示C(W,H,k)中坐标位置为(x,y)的像素点的像素值,d″(a,b,k)表示当前深度图像D'(W,H,k)中坐标位置为(a,b)的像素点经深度恢复处理后的像素值,σ<sub>1</sub>、σ<sub>2</sub>、σ<sub>3</sub>均表示尺度因子;③令k'=k+1,k=k',并将解码重建后的多视点深度视频中下一帧待处理的深度图像作为当前深度图像,然后返回步骤②继续执行,直至解码重建后的多视点深度视频中的所有深度图像处理完毕,其中,k'的初始值为0,在此k'=k+1,k=k'中的“=”为赋值符号。
地址 315211 浙江省宁波市江北区风华路818号