发明名称 一种面向压缩失真的立体视频质量客观评价方法
摘要 本发明公开了一种面向压缩失真的立体视频质量客观评价方法,其将立体视频质量分为左右视点质量和深度感知质量两部分,在左右视点质量评价部分,考虑到视频图像受到压缩失真会产生块效应和模糊的特点,提取梯度信息作为图像特征,同时考虑到人眼的时空域视觉特性,从而得到左视点质量和右视点质量;在深度感知质量评价部分,通过三维小波变换提取三维视差空间图中的低频成分,并将其质量作为立体视频的深度感知质量;最后,将左视点质量、右视点质量和深度感知质量相结合,得到最终的失真立体视频质量;优点是从左右视点平面视频质量的角度和立体视频深度感的角度完成对立体视频的客观质量评价,有效地提高了客观评价结果与主观感知之间的相关性。
申请公布号 CN104394403A 申请公布日期 2015.03.04
申请号 CN201410612196.X 申请日期 2014.11.04
申请人 宁波大学 发明人 蒋刚毅;宋洋;朱宏;刘姗姗;吕亚奇
分类号 H04N17/00(2006.01)I;H04N13/00(2006.01)I 主分类号 H04N17/00(2006.01)I
代理机构 宁波奥圣专利代理事务所(普通合伙) 33226 代理人 周珏
主权项 一种面向压缩失真的立体视频质量客观评价方法,其特征在于包括以下步骤:①令V<sub>org</sub>表示原始的无失真的立体视频,令V<sub>dis</sub>表示待评价的失真的立体视频,将V<sub>org</sub>中的第f帧立体图像记为<img file="FDA0000600792470000011.GIF" wi="110" he="84" />将<img file="FDA0000600792470000012.GIF" wi="78" he="85" />的左视点图像和右视点图像对应记为<img file="FDA0000600792470000013.GIF" wi="84" he="82" />和<img file="FDA0000600792470000014.GIF" wi="112" he="82" />将V<sub>dis</sub>中的第f帧立体图像记为<img file="FDA0000600792470000015.GIF" wi="98" he="85" />将<img file="FDA0000600792470000016.GIF" wi="78" he="84" />的左视点图像和右视点图像对应记为<img file="FDA0000600792470000017.GIF" wi="74" he="82" />和<img file="FDA0000600792470000018.GIF" wi="111" he="83" />其中,1≤f≤N<sub>f</sub>,N<sub>f</sub>表示V<sub>org</sub>和V<sub>dis</sub>各自所包含的立体图像的数量;②利用水平Sobel算子,计算V<sub>org</sub>中的每帧立体图像的左视点图像的水平梯度图,将<img file="FDA0000600792470000019.GIF" wi="86" he="86" />的水平梯度图记为<img file="FDA00006007924700000110.GIF" wi="164" he="85" />同样,利用水平Sobel算子,计算V<sub>dis</sub>中的每帧立体图像的左视点图像的水平梯度图,将<img file="FDA00006007924700000111.GIF" wi="76" he="76" />的水平梯度图记为<img file="FDA00006007924700000112.GIF" wi="159" he="83" />并,利用垂直Sobel算子,计算V<sub>org</sub>中的每帧立体图像的左视点图像的垂直梯度图,将<img file="FDA00006007924700000113.GIF" wi="86" he="85" />的垂直梯度图记为<img file="FDA00006007924700000114.GIF" wi="168" he="87" />同样,利用垂直Sobel算子,计算V<sub>dis</sub>中的每帧立体图像的左视点图像的垂直梯度图,将<img file="FDA00006007924700000115.GIF" wi="72" he="76" />的垂直梯度图记为<img file="FDA00006007924700000116.GIF" wi="162" he="85" />③计算V<sub>org</sub>中的每帧立体图像的左视点图像中的每个像素点的梯度场,将<img file="FDA00006007924700000117.GIF" wi="80" he="83" />中坐标位置为(u,v)的像素点的梯度场记为<img file="FDA00006007924700000118.GIF" wi="302" he="84" /><maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msubsup><mi>G</mi><mrow><mi>L</mi><mo>,</mo><mi>org</mi></mrow><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>=</mo><msqrt><msup><mrow><mo>(</mo><msubsup><mi>Gh</mi><mrow><mi>L</mi><mo>,</mo><mi>org</mi></mrow><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msubsup><mi>Gv</mi><mrow><mi>L</mi><mo>,</mo><mi>org</mi></mrow><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>;</mo></mrow>]]></math><img file="FDA00006007924700000119.GIF" wi="946" he="119" /></maths>同样,计算V<sub>dis</sub>中的每帧立体图像的左视点图像中的每个像素点的梯度场,将<img file="FDA00006007924700000120.GIF" wi="74" he="77" />中坐标位置为(u,v)的像素点的梯度场记为<img file="FDA00006007924700000121.GIF" wi="298" he="84" /><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msubsup><mi>G</mi><mrow><mi>L</mi><mo>,</mo><mi>dis</mi></mrow><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>=</mo><msqrt><msup><mrow><mo>(</mo><msubsup><mi>Gh</mi><mrow><mi>L</mi><mo>,</mo><mi>dis</mi></mrow><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msubsup><mi>Gv</mi><mrow><mi>L</mi><mo>,</mo><mi>dis</mi></mrow><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>;</mo></mrow>]]></math><img file="FDA00006007924700000122.GIF" wi="925" he="118" /></maths>其中,u表示像素点的水平坐标位置,v表示像素点的垂直坐标位置,1≤u≤U,1≤v≤V,U表示V<sub>org</sub>和V<sub>dis</sub>中的立体图像水平方向上的像素点的数量,V表示V<sub>org</sub>和V<sub>dis</sub>中的立体图像垂直方向上的像素点的数量,<img file="FDA00006007924700000123.GIF" wi="253" he="86" />表示<img file="FDA00006007924700000124.GIF" wi="143" he="92" />中坐标位置为(u,v)的像素点的像素值,<img file="FDA00006007924700000125.GIF" wi="252" he="91" />表示<img file="FDA00006007924700000126.GIF" wi="137" he="83" />中坐标位置为(u,v)的像素点的像素值,<img file="FDA0000600792470000021.GIF" wi="241" he="87" />表示<img file="FDA0000600792470000022.GIF" wi="132" he="82" />中坐标位置为(u,v)的像素点的像素值,<img file="FDA0000600792470000023.GIF" wi="236" he="88" />表示<img file="FDA0000600792470000024.GIF" wi="130" he="83" />中坐标位置为(u,v)的像素点的像素值;④根据V<sub>org</sub>中的每帧立体图像的左视点图像中的每个像素点的梯度场和V<sub>dis</sub>中对应的一帧立体图像的左视点图像中对应坐标位置的像素点的梯度场,确定V<sub>org</sub>中的每帧立体图像的左视点图像中的每个像素点为显著点还是为非显著点,同时确定V<sub>dis</sub>中的每帧立体图像的左视点图像中的每个像素点为显著点还是为非显著点,然后获取V<sub>org</sub>中的每帧立体图像的左视点图像的显著点图和V<sub>dis</sub>中的每帧立体图像的左视点图像的显著点图,将<img file="FDA0000600792470000025.GIF" wi="82" he="87" />的显著点图记为<img file="FDA0000600792470000026.GIF" wi="141" he="84" />将<img file="FDA0000600792470000027.GIF" wi="81" he="86" />的显著点图记为<img file="FDA0000600792470000028.GIF" wi="134" he="85" />⑤计算V<sub>org</sub>中的每帧立体图像的左视点图像的显著点图与V<sub>dis</sub>中对应的一帧立体图像的左视点图像的显著点图之间的差值图,将<img file="FDA0000600792470000029.GIF" wi="114" he="84" />与<img file="FDA00006007924700000210.GIF" wi="108" he="86" />之间的差值图记为<img file="FDA00006007924700000211.GIF" wi="169" he="78" /><img file="FDA00006007924700000212.GIF" wi="484" he="101" />然后利用恰可觉察失真模型,根据V<sub>org</sub>中的每帧立体图像的左视点图像的显著点图与V<sub>dis</sub>中对应的一帧立体图像的左视点图像的显著点图之间的差值图,确定V<sub>org</sub>中的每帧立体图像的左视点图像中的每个像素点为可见失真点还是为不可见失真点,同时确定V<sub>dis</sub>中的每帧立体图像的左视点图像中的每个像素点为可见失真点还是为不可见失真点;其中,符号“||”为取绝对值符号;⑥将V<sub>org</sub>中的每帧立体图像的左视点图像中的所有可见失真点构成该帧立体图像的左视点图像的感兴趣区域,将V<sub>org</sub>中的每帧立体图像的左视点图像中的所有不可见失真点构成该帧立体图像的左视点图像的不感兴趣区域,将<img file="FDA00006007924700000213.GIF" wi="88" he="85" />的感兴趣区域记为<img file="FDA00006007924700000214.GIF" wi="133" he="82" /><img file="FDA00006007924700000215.GIF" wi="109" he="82" />由<img file="FDA00006007924700000216.GIF" wi="72" he="82" />中的所有可见失真点构成,将<img file="FDA00006007924700000217.GIF" wi="86" he="82" />的不感兴趣区域记为<img file="FDA00006007924700000218.GIF" wi="297" he="82" />由<img file="FDA00006007924700000219.GIF" wi="82" he="82" />中的所有不可见失真点构成;同样,将V<sub>dis</sub>中的每帧立体图像的左视点图像中的所有可见失真点构成该帧立体图像的左视点图像的感兴趣区域,将V<sub>dis</sub>中的每帧立体图像的左视点图像中的所有不可见失真点构成该帧立体图像的左视点图像的不感兴趣区域,将<img file="FDA0000600792470000031.GIF" wi="72" he="82" />的感兴趣区域记为<img file="FDA0000600792470000032.GIF" wi="121" he="85" /><img file="FDA0000600792470000033.GIF" wi="98" he="82" />由<img file="FDA0000600792470000034.GIF" wi="72" he="77" />中的所有可见失真点构成,将<img file="FDA0000600792470000035.GIF" wi="80" he="76" />的不感兴趣区域记为<img file="FDA0000600792470000036.GIF" wi="309" he="82" />由<img file="FDA0000600792470000037.GIF" wi="74" he="78" />中的所有不可见失真点构成;⑦根据V<sub>org</sub>中的每帧立体图像的左视点图像的感兴趣区域与V<sub>dis</sub>中对应的一帧立体图像的左视点图像的感兴趣区域,计算V<sub>dis</sub>中的每帧立体图像的左视点图像的感兴趣区域质量,将<img file="FDA0000600792470000038.GIF" wi="82" he="78" />的感兴趣区域质量记为<img file="FDA0000600792470000039.GIF" wi="129" he="83" /><img file="FDA00006007924700000310.GIF" wi="540" he="86" />其中,SSIM()为结构相似度计算函数;同样,根据V<sub>org</sub>中的每帧立体图像的左视点图像的不感兴趣区域与V<sub>dis</sub>中对应的一帧立体图像的左视点图像的不感兴趣区域,计算V<sub>dis</sub>中的每帧立体图像的左视点图像的不感兴趣区域质量,将<img file="FDA00006007924700000311.GIF" wi="80" he="82" />的不感兴趣区域质量记为<img file="FDA00006007924700000312.GIF" wi="158" he="82" /><img file="FDA00006007924700000313.GIF" wi="619" he="86" />⑧计算V<sub>dis</sub>中的每帧立体图像的左视点图像相对于V<sub>org</sub>中对应的一帧立体图像的左视点图像的初级质量,将<img file="FDA00006007924700000314.GIF" wi="74" he="79" />相对于<img file="FDA00006007924700000315.GIF" wi="82" he="84" />的初级质量记为<img file="FDA00006007924700000316.GIF" wi="99" he="79" /><img file="FDA00006007924700000317.GIF" wi="474" he="143" />然后计算V<sub>dis</sub>中的每帧立体图像的左视点图像相对于V<sub>org</sub>中对应的一帧立体图像的左视点图像的最终质量,将<img file="FDA00006007924700000318.GIF" wi="75" he="83" />相对于<img file="FDA00006007924700000319.GIF" wi="90" he="90" />的最终质量记为<img file="FDA00006007924700000320.GIF" wi="91" he="82" /><img file="FDA00006007924700000321.GIF" wi="916" he="253" />再计算V<sub>dis</sub>的左视点质量,记为Q<sub>L</sub>,<img file="FDA00006007924700000322.GIF" wi="273" he="234" />其中,λ为感知加权因子,<img file="FDA00006007924700000323.GIF" wi="100" he="79" />表示V<sub>dis</sub>中的第f‑1帧立体图像的左视点图像相对于V<sub>org</sub>中的第f‑1帧立体图像的左视点图像的初级质量,a<sub>‑</sub>表示<img file="FDA00006007924700000324.GIF" wi="71" he="81" />相对于<img file="FDA00006007924700000325.GIF" wi="105" he="80" />下降时的下降质量调节因子,a<sub>+</sub>表示<img file="FDA00006007924700000326.GIF" wi="72" he="85" />相对于<img file="FDA00006007924700000327.GIF" wi="94" he="82" />上升时的上升质量调节因子,<img file="FDA00006007924700000328.GIF" wi="65" he="86" />表示<img file="FDA00006007924700000329.GIF" wi="68" he="82" />与<img file="FDA00006007924700000330.GIF" wi="98" he="80" />之间的差异,<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msubsup><mi>d</mi><mi>q</mi><mi>f</mi></msubsup><mo>=</mo><msubsup><mi>q</mi><mi>L</mi><mrow><mo>&prime;</mo><mi>f</mi></mrow></msubsup><mo>-</mo><msubsup><mi>q</mi><mi>L</mi><mrow><mo>&prime;</mo><mi>f</mi><mo>-</mo><mn>1</mn></mrow></msubsup><mo>,</mo></mrow>]]></math><img file="FDA00006007924700000331.GIF" wi="346" he="87" /></maths>在<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msubsup><mi>d</mi><mi>q</mi><mi>f</mi></msubsup><mo>=</mo><msubsup><mi>q</mi><mi>L</mi><mrow><mo>&prime;</mo><mi>f</mi><mo>-</mo><mn>1</mn></mrow></msubsup><mo>-</mo><msubsup><mi>q</mi><mi>L</mi><mrow><mo>&prime;</mo><mi>f</mi><mo>-</mo><mn>2</mn></mrow></msubsup></mrow>]]></math><img file="FDA00006007924700000332.GIF" wi="351" he="86" /></maths>中<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mn>2</mn><mo>&le;</mo><mi>f</mi><mo>&le;</mo><msub><mi>N</mi><mi>f</mi></msub><mo>;</mo></mrow>]]></math><img file="FDA00006007924700000333.GIF" wi="254" he="85" /></maths>⑨按照步骤②至步骤⑧的操作,以相同的操作方式对V<sub>org</sub>中的每帧立体图像的右视点图像和V<sub>dis</sub>中的每帧立体图像的右视点图像进行处理,获取V<sub>dis</sub>的右视点质量,记为Q<sub>R</sub>;⑩根据Q<sub>L</sub>和Q<sub>R</sub>,计算V<sub>dis</sub>相对于V<sub>org</sub>的左右视点质量,记为Q<sub>LR</sub>,Q<sub>LR</sub>=w<sub>s</sub>×Q<sub>L</sub>+(1‑w<sub>s</sub>)×Q<sub>R</sub>,其中,w<sub>s</sub>表示Q<sub>L</sub>在Q<sub>LR</sub>中所占的权重;<img file="FDA00006007924700000426.GIF" wi="56" he="56" />获取V<sub>org</sub>中的每帧立体图像的三维视差空间图,将<img file="FDA0000600792470000041.GIF" wi="87" he="84" />的三维视差空间图记为<img file="FDA0000600792470000042.GIF" wi="168" he="82" /><maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msubsup><mi>DSI</mi><mi>org</mi><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>|</mo><mo>|</mo><msubsup><mi>L</mi><mi>org</mi><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>R</mi><mi>org</mi><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>-</mo><mi>d</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>,</mo></mrow>]]></math><img file="FDA0000600792470000043.GIF" wi="878" he="105" /></maths>其中,<img file="FDA0000600792470000044.GIF" wi="298" he="84" />表示<img file="FDA0000600792470000045.GIF" wi="80" he="86" />中坐标位置为(u,v)的像素点在视差偏移量为d时的视差空间值,d取[1,d<sub>max</sub>]中的所有整数,d<sub>max</sub>为最大视差搜索范围,符号“|| ||”为欧氏距离计算符号,<img file="FDA0000600792470000046.GIF" wi="194" he="84" />表示<img file="FDA0000600792470000047.GIF" wi="95" he="85" />中坐标位置为(u,v)的像素点的像素值,<img file="FDA0000600792470000048.GIF" wi="272" he="84" />表示<img file="FDA0000600792470000049.GIF" wi="88" he="83" />中坐标位置为(u‑d,v)的像素点的像素值,<img file="FDA00006007924700000410.GIF" wi="141" he="88" />为U×V×d<sub>max</sub>的三维矩阵;同样,获取V<sub>dis</sub>中的每帧立体图像的三维视差空间图,将<img file="FDA00006007924700000411.GIF" wi="68" he="78" />的三维视差空间图记为<img file="FDA00006007924700000412.GIF" wi="159" he="82" /><maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msubsup><mi>DSI</mi><mi>dis</mi><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>|</mo><mo>|</mo><msubsup><mi>L</mi><mi>dis</mi><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>R</mi><mi>dis</mi><mi>f</mi></msubsup><mrow><mo>(</mo><mi>u</mi><mo>-</mo><mi>d</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>,</mo></mrow>]]></math><img file="FDA00006007924700000413.GIF" wi="848" he="102" /></maths>其中,<img file="FDA00006007924700000414.GIF" wi="291" he="82" />表示<img file="FDA00006007924700000415.GIF" wi="72" he="79" />中坐标位置为(u,v)的像素点在视差偏移量为d时的视差空间值,d取[1,d<sub>max</sub>]中的所有整数,d<sub>max</sub>为最大视差搜索范围,符号“|| ||”为欧氏距离计算符号,<img file="FDA00006007924700000416.GIF" wi="187" he="81" />表示<img file="FDA00006007924700000417.GIF" wi="80" he="84" />中坐标位置为(u,v)的像素点的像素值,<img file="FDA00006007924700000418.GIF" wi="270" he="78" />表示<img file="FDA00006007924700000419.GIF" wi="89" he="76" />中坐标位置为(u‑d,v)的像素点的像素值,<img file="FDA00006007924700000424.GIF" wi="158" he="71" />为U×V×d<sub>max</sub>的三维矩阵;<img file="FDA00006007924700000425.GIF" wi="56" he="56" />对V<sub>org</sub>中的每帧立体图像的三维视差空间图进行一级三维小波变换,得到V<sub>org</sub>中的每帧立体图像对应的八组子带矩阵,然后将V<sub>org</sub>中的每帧立体图像对应的最低频的一组子带矩阵作为该帧立体图像的低频视差空间图,将<img file="FDA00006007924700000421.GIF" wi="82" he="89" />的低频视差空间图记为<img file="FDA00006007924700000422.GIF" wi="203" he="86" />其中,<img file="FDA00006007924700000427.GIF" wi="177" he="131" />为<img file="FDA00006007924700000423.GIF" wi="263" he="133" />的三维矩阵;同样,对V<sub>dis</sub>中的每帧立体图像的三维视差空间图进行一级三维小波变换,得到V<sub>dis</sub>中的每帧立体图像对应的八组子带矩阵,然后将V<sub>dis</sub>中的每帧立体图像对应的最低频的一组子带矩阵作为该帧立体图像的低频视差空间图,将<img file="FDA0000600792470000051.GIF" wi="78" he="78" />的低频视差空间图记为<img file="FDA0000600792470000052.GIF" wi="205" he="78" />其中,<img file="FDA0000600792470000053.GIF" wi="170" he="78" />为<img file="FDA0000600792470000054.GIF" wi="268" he="128" />的三维矩阵;<img file="FDA00006007924700000536.GIF" wi="56" he="56" />根据V<sub>org</sub>中的每帧立体图像的低频视差空间图和V<sub>dis</sub>中对应的一帧立体图像的低频视差空间图,计算V<sub>dis</sub>中的每帧立体图像相对于V<sub>org</sub>中对应的一帧立体图像的深度感知质量,将<img file="FDA0000600792470000055.GIF" wi="74" he="85" />相对于<img file="FDA0000600792470000056.GIF" wi="74" he="93" />的深度感知质量记为<img file="FDA0000600792470000057.GIF" wi="149" he="89" /><img file="FDA0000600792470000058.GIF" wi="700" he="91" />其中,SSIM()为结构相似度计算函数;<img file="FDA00006007924700000537.GIF" wi="56" he="56" />根据V<sub>dis</sub>中的每帧立体图像相对于V<sub>org</sub>中对应的一帧立体图像的深度感知质量,计算V<sub>dis</sub>相对于V<sub>org</sub>的深度感知质量,记为Q<sub>d</sub>,<img file="FDA0000600792470000059.GIF" wi="324" he="237" /><img file="FDA00006007924700000538.GIF" wi="56" he="56" />根据Q<sub>LR</sub>和Q<sub>d</sub>,计算V<sub>dis</sub>相对于V<sub>org</sub>的失真立体视频质量,记为Q,Q=w<sub>LR</sub>×Q<sub>LR</sub>+(1‑w<sub>LR</sub>)×Q<sub>d</sub>,其中,w<sub>LR</sub>为Q<sub>LR</sub>在Q中所占的权重。
地址 315211 浙江省宁波市江北区风华路818号