发明名称 一种基于机器学的立体图像视觉舒适度评价方法
摘要 本发明公开了一种基于机器学的立体图像视觉舒适度评价方法,其首先通过右视点图像的显著图和右视差图像提取出立体图像的视觉重要区域掩膜,然后利用视觉重要区域掩膜提取出用于反映视差幅度特征、视差梯度特征的特征矢量及用于反映空间频率特征的特征矢量,得到立体图像的特征矢量,再利用支持向量回归对立体图像集合中的所有立体图像的特征矢量进行训练,最后利用训练得到的支持向量回归训练模型对立体图像集合中的每幅立体图像进行测试,得到每幅立体图像的视觉舒适度评价预测值,优点是获得的立体图像的特征矢量信息具有较强的稳定性且能够较好地反映立体图像的视觉舒适度变化情况,从而有效地提高了客观评价情况与主观感知的相关性。
申请公布号 CN103347196B 申请公布日期 2015.04.29
申请号 CN201310264956.8 申请日期 2013.06.27
申请人 宁波大学 发明人 邵枫;姜求平;蒋刚毅;郁梅;李福;彭宗举
分类号 H04N17/00(2006.01)I;H04N13/00(2006.01)I 主分类号 H04N17/00(2006.01)I
代理机构 宁波奥圣专利代理事务所(普通合伙) 33226 代理人 周珏
主权项 一种基于机器学习的立体图像视觉舒适度评价方法,其特征在于包括以下步骤:①将待评价的立体图像的左视点图像记为{I<sub>L</sub>(x,y)},将待评价的立体图像的右视点图像记为{I<sub>R</sub>(x,y)},将待评价的立体图像的右视差图像记为{d<sub>R</sub>(x,y)},其中,此处(x,y)表示{I<sub>L</sub>(x,y)}、{I<sub>R</sub>(x,y)}和{d<sub>R</sub>(x,y)}中的像素点的坐标位置,1≤x≤W,1≤y≤H,W表示{I<sub>L</sub>(x,y)}、{I<sub>R</sub>(x,y)}和{d<sub>R</sub>(x,y)}的宽度,H表示{I<sub>L</sub>(x,y)}、{I<sub>R</sub>(x,y)}和{d<sub>R</sub>(x,y)}的高度,I<sub>L</sub>(x,y)表示{I<sub>L</sub>(x,y)}中坐标位置为(x,y)的像素点的像素值,I<sub>R</sub>(x,y)表示{I<sub>R</sub>(x,y)}中坐标位置为(x,y)的像素点的像素值,d<sub>R</sub>(x,y)表示{d<sub>R</sub>(x,y)}中坐标位置为(x,y)的像素点的像素值;②提取出{I<sub>R</sub>(x,y)}的显著图;然后根据{I<sub>R</sub>(x,y)}的显著图和{d<sub>R</sub>(x,y)},获取{I<sub>R</sub>(x,y)}的视觉显著图;再将{I<sub>R</sub>(x,y)}的视觉显著图划分为视觉重要区域和非视觉重要区域;最后根据{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域和非视觉重要区域,获取待评价的立体图像的视觉重要区域掩膜,记为{M(x,y)},其中,M(x,y)表示{M(x,y)}中坐标位置为(x,y)的像素点的像素值;③根据{d<sub>R</sub>(x,y)}和{M(x,y)},获取{d<sub>R</sub>(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内的像素点的视差均值μ、视差方差δ、最大负视差<img file="FDA0000590499320000011.GIF" wi="70" he="56" />视差范围χ,<img file="FDA0000590499320000012.GIF" wi="45" he="56" />的值为{d<sub>R</sub>(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内视差值最小的1%像素点的视差均值,χ=d<sub>max</sub>‑d<sub>min</sub>,d<sub>max</sub>表示{d<sub>R</sub>(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内视差值最大的1%像素点的视差均值,d<sub>min</sub>表示{d<sub>R</sub>(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内视差值最小的1%像素点的视差均值,然后将μ、δ、<img file="FDA0000590499320000013.GIF" wi="45" he="56" />和χ按顺序进行排列构成用于反映{d<sub>R</sub>(x,y)}的视差幅度特征的特征矢量,记为F<sub>1</sub>,<img file="FDA0000590499320000026.GIF" wi="351" he="79" />④通过计算{d<sub>R</sub>(x,y)}的视差梯度幅值图像和视差梯度方向图像,计算{d<sub>R</sub>(x,y)}的视差梯度边缘图像;然后根据{d<sub>R</sub>(x,y)}的视差梯度边缘图像和{M(x,y)},计算{d<sub>R</sub>(x,y)}的视差梯度边缘图像中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内的所有像素点的梯度均值ψ;最后将ψ作为用于反映{d<sub>R</sub>(x,y)}的视差梯度特征的特征矢量,记为F<sub>2</sub>;⑤获取{I<sub>R</sub>(x,y)}的空间频率图像;然后根据{I<sub>R</sub>(x,y)}的空间频率图像和{M(x,y)},获取{I<sub>R</sub>(x,y)}的空间频率图像中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内的像素点的空间频率均值ν、空间频率方差ρ、空间频率范围<img file="FDA0000590499320000027.GIF" wi="67" he="54" />空间频率敏感因子τ;再将ν、ρ、<img file="FDA0000590499320000024.GIF" wi="46" he="53" />和τ按顺序进行排列构成用于反映{I<sub>R</sub>(x,y)}的空间频率特征的特征矢量,记为F<sub>3</sub>,<img file="FDA0000590499320000025.GIF" wi="339" he="75" />所述的步骤⑤的具体过程为:⑤‑1、计算{I<sub>R</sub>(x,y)}的空间频率图像,记为{SF(x,y)},将{SF(x,y)}中坐标位置为(x,y)的像素点的空间频率值记为SF(x,y),<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>SF</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msqrt><msup><mrow><mo>(</mo><mi>HF</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><mi>VF</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><mi>DF</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>,</mo></mrow>]]></math><img file="FDA0000590499320000021.GIF" wi="1109" he="115" /></maths>其中,HF(x,y)表示{I<sub>R</sub>(x,y)}中坐标位置为(x,y)的像素点的水平方向频率值,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>HF</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mo>-</mo><mn>1</mn></mrow><mn>1</mn></munderover><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mn>1</mn></munderover><msup><mrow><mo>(</mo><msub><mi>I</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>m</mi><mo>,</mo><mi>y</mi><mo>+</mo><mi>n</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>I</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>m</mi><mo>,</mo><mi>y</mi><mo>+</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mn>3</mn><mo>&times;</mo><mn>2</mn></mrow></mfrac></msqrt><mo>,</mo></mrow>]]></math><img file="FDA0000590499320000022.GIF" wi="1262" he="209" /></maths>VF(x,y)表示{I<sub>R</sub>(x,y)}中坐标位置为(x,y)的像素点的垂直方向频率值,<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>VF</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>0</mn></mrow><mn>1</mn></munderover><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mo>-</mo><mn>1</mn></mrow><mn>1</mn></munderover><msup><mrow><mo>(</mo><msub><mi>I</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>m</mi><mo>,</mo><mi>y</mi><mo>+</mo><mi>n</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>I</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>m</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>y</mi><mo>+</mo><mi>n</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mn>2</mn><mo>&times;</mo><mn>3</mn></mrow></mfrac></msqrt><mo>,</mo></mrow>]]></math><img file="FDA0000590499320000023.GIF" wi="1322" he="217" /></maths>DF(x,y)表示{I<sub>R</sub>(x,y)}中坐标位置为(x,y)的像素点的对角方向频率值,<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>DF</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>0</mn></mrow><mn>1</mn></munderover><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mn>1</mn></munderover><msup><mrow><mo>(</mo><msub><mi>I</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>m</mi><mo>,</mo><mi>y</mi><mo>+</mo><mi>n</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>I</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>m</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>y</mi><mo>+</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mn>2</mn><mo>&times;</mo><mn>2</mn></mrow></mfrac></msqrt><mo>+</mo><msqrt><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mo>-</mo><mn>1</mn></mrow><mn>0</mn></munderover><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mn>1</mn></munderover><msup><mrow><mo>(</mo><msub><mi>I</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>m</mi><mo>,</mo><mi>y</mi><mo>+</mo><mi>n</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>I</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>+</mo><mi>m</mi><mo>+</mo><mn>1</mn><mo>,</mo><mi>y</mi><mo>+</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mn>2</mn><mo>&times;</mo><mn>2</mn></mrow></mfrac></msqrt><mo>,</mo></mrow>]]></math><img file="FDA0000590499320000031.GIF" wi="1886" he="172" /></maths>I<sub>R</sub>(x+m,y+n)表示{I<sub>R</sub>(x,y)}中坐标位置为(x+m,y+n)的像素点的像素值,I<sub>R</sub>(x+m,y+n‑1)表示{I<sub>R</sub>(x,y)}中坐标位置为(x+m,y+n‑1)的像素点的像素值,I<sub>R</sub>(x+m‑1,y+n)表示{I<sub>R</sub>(x,y)}中坐标位置为(x+m‑1,y+n)的像素点的像素值,I<sub>R</sub>(x+m‑1,y+n‑1)表示{I<sub>R</sub>(x,y)}中坐标位置为(x+m‑1,y+n‑1)的像素点的像素值,I<sub>R</sub>(x+m+1,y+n‑1)表示{I<sub>R</sub>(x,y)}中坐标位置为(x+m+1,y+n‑1)的像素点的像素值,如果x+m<1,则I<sub>R</sub>(x+m,y+n)的值由I<sub>R</sub>(1,y+n)的值替代,I<sub>R</sub>(x+m,y+n‑1)的值由I<sub>R</sub>(1,y+n‑1)的值替代;如果x+m‑1<1,则I<sub>R</sub>(x+m‑1,y+n)的值由I<sub>R</sub>(1,y+n)的值替代,I<sub>R</sub>(x+m‑1,y+n‑1)的值由I<sub>R</sub>(1,y+n‑1)的值替代;如果x+m>W,则I<sub>R</sub>(x+m,y+n)的值由I<sub>R</sub>(W,y+n)的值替代,I<sub>R</sub>(x+m,y+n‑1)的值由I<sub>R</sub>(W,y+n‑1)的值替代;如果x+m+1>W,则I<sub>R</sub>(x+m+1,y+n‑1)的值由I<sub>R</sub>(W,y+n‑1)的值替代;如果y+n<1,则I<sub>R</sub>(x+m,y+n)的值由I<sub>R</sub>(x+m,1)的值替代,I<sub>R</sub>(x+m‑1,y+n)的值由I<sub>R</sub>(x+m‑1,1)的值替代;如果y+n‑1<1,则I<sub>R</sub>(x+m,y+n‑1)的值由I<sub>R</sub>(x+m,1)的值替代,I<sub>R</sub>(x+m‑1,y+n‑1)的值由I<sub>R</sub>(x+m‑1,1)的值替代,I<sub>R</sub>(x+m+1,y+n‑1)的值由I<sub>R</sub>(x+m+1,1)的值替代;如果y+n>H,则I<sub>R</sub>(x+m,y+n)的值由I<sub>R</sub>(x+m,H)的值替代,I<sub>R</sub>(x+m‑1,y+n)的值由I<sub>R</sub>(x+m‑1,H)的值替代;⑤‑2、根据{SF(x,y)}和{M(x,y)},计算{SF(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内的所有像素点的空间频率均值,记为ν,<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>v</mi><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>&Omega;</mi></mrow></munder><mi>SF</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>&times;</mo><mi>M</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>&Omega;</mi></mrow></munder><mi>M</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0000590499320000032.GIF" wi="625" he="222" /></maths>其中,Ω表示图像域范围;⑤‑3、根据{SF(x,y)}和{M(x,y)}及ν,计算{SF(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内的所有像素点的空间频率方差,记为ρ,<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>&rho;</mi><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>&Omega;</mi></mrow></munder><msup><mrow><mo>(</mo><mi>SF</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>-</mo><mi>v</mi><mo>)</mo></mrow><mn>2</mn></msup><mo>&times;</mo><mi>M</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow><mrow><munder><mi>&Sigma;</mi><mrow><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>&Element;</mo><mi>&Omega;</mi></mrow></munder><mi>M</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000590499320000041.GIF" wi="763" he="238" /></maths>⑤‑4、计算{SF(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内的像素点的空间频率范围,记为<img file="FDA0000590499320000042.GIF" wi="59" he="53" /><img file="FDA0000590499320000043.GIF" wi="390" he="68" />其中,SF<sub>max</sub>表示{SF(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内空间频率值最大的1%像素点的空间频率均值,SF<sub>min</sub>表示{SF(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内空间频率值最小的1%像素点的空间频率均值;⑤‑5、计算{SF(x,y)}中与{I<sub>R</sub>(x,y)}的视觉显著图的视觉重要区域相对应的区域内的像素点的空间频率敏感因子,记为τ,τ=ν/μ;⑤‑6、将ν、ρ、<img file="FDA0000590499320000044.GIF" wi="47" he="53" />和τ按顺序进行排列构成用于反映{I<sub>R</sub>(x,y)}的空间频率特征的特征矢量,记为F<sub>3</sub>,<img file="FDA0000590499320000045.GIF" wi="340" he="79" />F<sub>3</sub>的维数为4;⑥将F<sub>1</sub>、F<sub>2</sub>及F<sub>3</sub>构成一个新的特征矢量,记为X,X=[F<sub>1</sub>,F<sub>2</sub>,F<sub>3</sub>],然后将X作为待评价的立体图像的特征矢量,其中,符号“[]”为矢量表示符号,[F<sub>1</sub>,F<sub>2</sub>,F<sub>3</sub>]表示将F<sub>1</sub>、F<sub>2</sub>和F<sub>3</sub>连接起来形成一个新的特征矢量;⑦采用n副不同的立体图像以及对应的右视差图像建立立体图像集合,利用主观质量评价方法分别计算立体图像集合中的每副立体图像的视觉舒适度的平均主观评分均值,记为MOS,其中,n≥1,MOS∈[1,5];然后按照步骤①至步骤⑥计算待评价的立体图像的特征矢量X的操作,以相同的方式分别计算立体图像集合中的每幅立体图像的特征矢量,将立体图像集合中的第i幅立体图像的特征矢量记为X<sub>i</sub>,其中,1≤i≤n,n表示立体图像集合中包含的立体图像的幅数;⑧将立体图像集合中的所有立体图像分成训练集和测试集,将训练集中的所有立体图像的特征矢量和平均主观评分均值构成训练样本数据集合,将测试集中的所有立体图像的特征矢量和平均主观评分均值构成测试样本数据集合,然后采用支持向量回归作为机器学习的方法,对训练样本数据集合中的所有立体图像的特征矢量进行训练,使得经过训练得到的回归函数值与平均主观评分均值之间的误差最小,拟合得到最优的权重矢量w<sup>opt</sup>和最优的偏置项b<sup>opt</sup>,接着利用w<sup>opt</sup>和b<sup>opt</sup>构造得到支持向量回归训练模型,再根据支持向量回归训练模型,对测试样本数据集合中的每幅立体图像的特征矢量进行测试,预测得到测试样本数据集合中的每幅立体图像的客观视觉舒适度评价预测值,将测试样本数据集合中的第k'幅立体图像的客观视觉舒适度评价预测值记为Q<sub>k'</sub>,Q<sub>k'</sub>=f(X<sub>k'</sub>),<img file="FDA0000590499320000051.GIF" wi="595" he="78" />其中,f()为函数表示形式,X<sub>k'</sub>表示测试样本数据集合中的第k'幅立体图像的特征矢量,(w<sup>opt</sup>)<sup>T</sup>为w<sup>opt</sup>的转置矩阵,<img file="FDA0000590499320000052.GIF" wi="147" he="68" />表示测试样本数据集合中的第k'幅立体图像的线性函数,1≤k'≤n‑t,t表示训练集中包含的立体图像的幅数;之后通过重新分配训练集和测试集,重新预测得到测试样本数据集合中的每幅立体图像的客观视觉舒适度评价预测值,经过N次迭代后计算立体图像中的每幅立体图像的客观视觉舒适度评价预测值的平均值,并将计算得到的平均值作为对应那幅立体图像的最终的客观视觉舒适度预测值,其中,N的值取大于100。
地址 315211 浙江省宁波市江北区风华路818号