发明名称 一种基于机器学的无参考立体图像质量客观评价方法
摘要 本发明公开了一种基于机器学的无参考立体图像质量客观评价方法,其通过在训练阶段构造视觉字典表,对于任意一幅失真立体图像的左视点图像和右视点图像,根据已构造的视觉字典表,计算左视点图像和右视点图像各自中的每个子块的稀疏系数矩阵,并通过最大池化方法得到左视点图像和右视点图像各自的特征矢量,特征提取简单,计算复杂度低;通过构造左视点图像和右视点图像的支持向量回归训练模型,预测得到测试样本数据集合中的每个特征矢量对应的左视点图像和右视点图像各自的客观质量评价预测值,并根据特征矢量信息进行加权,得到立体图像的客观质量评价预测值,客观评价结果与主观感知之间的相关性高。
申请公布号 CN104581143B 申请公布日期 2016.08.24
申请号 CN201510017701.0 申请日期 2015.01.14
申请人 宁波大学 发明人 邵枫;李柯蒙;李福
分类号 H04N17/00(2006.01)I;H04N19/154(2014.01)I;H04N13/00(2006.01)I 主分类号 H04N17/00(2006.01)I
代理机构 宁波奥圣专利代理事务所(普通合伙) 33226 代理人 周珏
主权项 一种基于机器学习的无参考立体图像质量客观评价方法,其特征在于包括以下步骤:①选取N幅原始的无失真立体图像的左视点图像构成训练图像集,记为{L<sub>i,org</sub>|1≤i≤N},其中,N≥1,L<sub>i,org</sub>表示{L<sub>i,org</sub>|1≤i≤N}中的第i幅图像;②利用高斯差分滤波器对{L<sub>i,org</sub>|1≤i≤N}中的每幅图像实施高斯差分滤波,得到{L<sub>i,org</sub>|1≤i≤N}中的每幅图像在不同尺度下的滤波图像;③对{L<sub>i,org</sub>|1≤i≤N}中的每幅图像在不同尺度下的滤波图像进行非重叠的分块处理;然后采用K‑SVD方法对由每个尺度下的N幅滤波图像中的所有子块构成的集合进行字典训练操作,获得每个尺度下的目标训练字典;再将每个尺度下的目标训练字典作为该尺度下的N幅滤波图像的视觉字典表,构造得到{L<sub>i,org</sub>|1≤i≤N}的视觉字典表,记为D,D={D<sup>j</sup>|1≤j≤S},其中,j的初始值为1,S表示高斯差分滤波器的尺度个数,D<sup>j</sup>表示第j个尺度下的目标训练字典,D<sup>j</sup>亦表示第j个尺度下的N幅滤波图像的视觉字典表,D<sup>j</sup>亦表示D中的第j个视觉字典;④将待评价的失真立体图像的左视点图像记为{I<sub>L</sub>(x,y)},将待评价的立体图像的右视点图像记为{I<sub>R</sub>(x,y)},其中,此处(x,y)表示{I<sub>L</sub>(x,y)}和{I<sub>R</sub>(x,y)}中的像素点的坐标位置,1≤x≤W',1≤y≤H',W'表示待评价的失真立体图像的宽度,H'表示待评价的失真立体图像的高度,I<sub>L</sub>(x,y)表示{I<sub>L</sub>(x,y)}中坐标位置为(x,y)的像素点的像素值,I<sub>R</sub>(x,y)表示{I<sub>R</sub>(x,y)}中坐标位置为(x,y)的像素点的像素值;⑤利用高斯差分滤波器对{I<sub>L</sub>(x,y)}实施高斯差分滤波,得到{I<sub>L</sub>(x,y)}在不同尺度下的滤波图像;然后对{I<sub>L</sub>(x,y)}在每个尺度下的滤波图像进行非重叠的分块处理;接着根据{I<sub>L</sub>(x,y)}在每个尺度下的滤波图像中的所有子块构成的集合中的每个元素和在训练阶段构造得到的视觉字典表D,获取{I<sub>L</sub>(x,y)}在每个尺度下的滤波图像中的所有子块构成的集合中的每个元素的稀疏系数矩阵;再采用最大池化方法,获取{I<sub>L</sub>(x,y)}在每个尺度下的滤波图像中的所有子块构成的集合中的每个元素的稀疏系数矩阵经最大池化后得到的稀疏系数矩阵;最后根据{I<sub>L</sub>(x,y)}对应的所有经最大池化后得到的稀疏系数矩阵,获得{I<sub>L</sub>(x,y)}的特征矢量,记为F<sub>L</sub>,<img file="FDA0000932984250000021.GIF" wi="326" he="135" />其中,j的初始值为1,S表示高斯差分滤波器的尺度个数,在此M'表示{I<sub>L</sub>(x,y)}在每个尺度下的滤波图像中包含的子块的总个数,<img file="FDA0000932984250000022.GIF" wi="77" he="69" />表示由{I<sub>L</sub>(x,y)}在第j个尺度下的滤波图像中的所有子块构成的集合中的第t'个元素的稀疏系数矩阵经最大池化后得到的稀疏系数矩阵;同样,利用高斯差分滤波器对{I<sub>R</sub>(x,y)}实施高斯差分滤波,得到{I<sub>R</sub>(x,y)}在不同尺度下的滤波图像;然后对{I<sub>R</sub>(x,y)}在每个尺度下的滤波图像进行非重叠的分块处理;接着根据{I<sub>R</sub>(x,y)}在每个尺度下的滤波图像中的所有子块构成的集合中的每个元素和在训练阶段构造得到的视觉字典表D,获取{I<sub>R</sub>(x,y)}在每个尺度下的滤波图像中的所有子块构成的集合中的每个元素的稀疏系数矩阵;再采用最大池化方法,获取{I<sub>R</sub>(x,y)}在每个尺度下的滤波图像中的所有子块构成的集合中的每个元素的稀疏系数矩阵经最大池化后得到的稀疏系数矩阵;最后根据{I<sub>R</sub>(x,y)}对应的所有经最大池化后得到的稀疏系数矩阵,获得{I<sub>R</sub>(x,y)}的特征矢量,记为F<sub>R</sub>,<img file="FDA0000932984250000023.GIF" wi="333" he="135" />其中,在此M'表示{I<sub>R</sub>(x,y)}在每个尺度下的滤波图像中包含的子块的总个数,<img file="FDA0000932984250000024.GIF" wi="78" he="70" />表示由{I<sub>R</sub>(x,y)}在第j个尺度下的滤波图像中的所有子块构成的集合中的第t'个元素的稀疏系数矩阵经最大池化后得到的稀疏系数矩阵;⑥采用n幅失真立体图像建立失真立体图像集合,利用主观质量评价方法获取失真立体图像集合中的每幅失真立体图像的平均主观评分差值,记为DMOS,DMOS=100‑MOS,其中,MOS表示主观评分均值,DMOS∈[0,100],n≥1;然后按照步骤⑤中计算待评价的失真立体图像的左视点图像的特征矢量F<sub>L</sub>和右视点图像的特征矢量F<sub>R</sub>的操作,以相同的方式计算失真立体图像集合中的每幅立体图像的左视点图像和右视点图像各自的特征矢量,将失真立体图像集合中的第i幅立体图像的左视点图像的特征矢量和右视点图像的特征矢量对应记为F<sub>i,L</sub>和F<sub>i,R</sub>,其中,1≤i≤n,n表示失真立体图像集合中包含的失真立体图像的幅数;⑦随机选择失真立体图像集合中的m幅失真立体图像构成训练集,将失真立体图像集合中剩余的n‑m幅失真立体图像构成测试集;接着将训练集中的所有失真立体图像各自的左视点图像的特征矢量和训练集中的所有失真立体图像各自的平均主观评分差值构成左视点训练样本数据集合;然后采用支持向量回归作为机器学习的方法,对左视点训练样本数据集合中的所有特征矢量进行训练,使得经过训练得到的回归函数值与平均主观评分差值之间的误差最小,拟合得到最优的权重矢量<img file="FDA0000932984250000031.GIF" wi="83" he="61" />和最优的偏置项<img file="FDA0000932984250000032.GIF" wi="99" he="63" />再利用得到的最优的权重矢量<img file="FDA0000932984250000033.GIF" wi="83" he="62" />和最优的偏置项<img file="FDA0000932984250000034.GIF" wi="72" he="63" />构造左视点图像的支持向量回归训练模型,记为f<sub>L</sub>(F<sub>inp</sub>),<img file="FDA0000932984250000035.GIF" wi="614" he="70" />其中,f<sub>L</sub>( )为函数表示形式,在此F<sub>inp</sub>表示左视点图像的支持向量回归训练模型的输入矢量,<img file="FDA0000932984250000036.GIF" wi="140" he="63" />为<img file="FDA0000932984250000037.GIF" wi="79" he="62" />的转置矩阵,<img file="FDA0000932984250000038.GIF" wi="156" he="63" />表示左视点图像的支持向量回归训练模型的输入矢量F<sub>inp</sub>的线性函数;同样,将训练集中的所有失真立体图像各自的右视点图像的特征矢量和训练集中的所有失真立体图像各自的平均主观评分差值构成右视点训练样本数据集合;然后采用支持向量回归作为机器学习的方法,对右视点训练样本数据集合中的所有特征矢量进行训练,使得经过训练得到的回归函数值与平均主观评分差值之间的误差最小,拟合得到最优的权重矢量<img file="FDA0000932984250000039.GIF" wi="88" he="62" />和最优的偏置项<img file="FDA00009329842500000310.GIF" wi="100" he="63" />再利用得到的最优的权重矢量<img file="FDA00009329842500000311.GIF" wi="83" he="62" />和最优的偏置项<img file="FDA00009329842500000312.GIF" wi="77" he="63" />构造右视点图像的支持向量回归训练模型,记为f<sub>R</sub>(F<sub>inp</sub>),<img file="FDA00009329842500000313.GIF" wi="621" he="71" />其中,f<sub>R</sub>( )为函数表示形式,在此F<sub>inp</sub>表示右视点图像的支持向量回归训练模型的输入矢量,<img file="FDA00009329842500000314.GIF" wi="137" he="63" />为<img file="FDA00009329842500000315.GIF" wi="81" he="61" />的转置矩阵,<img file="FDA00009329842500000316.GIF" wi="158" he="63" />表示右视点图像的支持向量回归训练模型的输入矢量F<sub>inp</sub>的线性函数;⑧将测试集中的所有失真立体图像各自的左视点图像的特征矢量和测试集中的所有失真立体图像各自的平均主观评分差值构成左视点测试样本数据集合;然后根据左视点图像的支持向量回归训练模型,对左视点测试样本数据集合中的每个特征矢量进行测试,预测得到左视点测试样本数据集合中的每个特征矢量对应的左视点图像的客观质量评价预测值,将左视点测试样本数据集合中的第q个特征矢量对应的左视点图像的客观质量评价预测值记为Q<sub>L,q</sub>,Q<sub>L,q</sub>=f<sub>L</sub>(F<sub>L,q</sub>),<img file="FDA0000932984250000041.GIF" wi="635" he="71" />其中,1≤q≤n‑m,m表示训练集中包含的失真立体图像的幅数,F<sub>L,q</sub>表示左视点测试样本数据集合中的第q个特征矢量,<img file="FDA0000932984250000042.GIF" wi="163" he="71" />表示左视点测试样本数据集合中的第q个特征矢量的线性函数;同样,将测试集中的所有失真立体图像各自的右视点图像的特征矢量和测试集中的所有失真立体图像各自的平均主观评分差值构成右视点测试样本数据集合;然后根据右视点图像的支持向量回归训练模型,对右视点测试样本数据集合中的每个特征矢量进行测试,预测得到右视点测试样本数据集合中的每个特征矢量对应的右视点图像的客观质量评价预测值,将右视点测试样本数据集合中的第q个特征矢量对应的右视点图像的客观质量评价预测值记为Q<sub>R,q</sub>,Q<sub>R,q</sub>=f<sub>R</sub>(F<sub>R,q</sub>),<img file="FDA0000932984250000043.GIF" wi="634" he="71" />其中,F<sub>R,q</sub>表示右视点测试样本数据集合中的第q个特征矢量,<img file="FDA0000932984250000044.GIF" wi="163" he="63" />表示右视点测试样本数据集合中的第q个特征矢量的线性函数;⑨根据左视点测试样本数据集合中的每个特征矢量对应的左视点图像的客观质量评价预测值和右视点测试样本数据集合中的每个特征矢量对应的右视点图像的客观质量评价预测值,计算测试集中的每幅失真立体图像的客观质量评价预测值,将测试集中的第q幅失真立体图像的客观质量评价预测值记为Q<sub>q</sub>,Q<sub>q</sub>=w<sub>L,q</sub>×Q<sub>L,q</sub>+w<sub>R,q</sub>×Q<sub>R,q</sub>,其中,Q<sub>L,q</sub>表示左视点测试样本数据集合中的第q个特征矢量对应的左视点图像的客观质量评价预测值,Q<sub>L,q</sub>亦表示测试集中的第q幅失真立体图像的左视点图像的客观质量评价预测值,Q<sub>R,q</sub>表示右视点测试样本数据集合中的第q个特征矢量对应的右视点图像的客观质量评价预测值,Q<sub>R,q</sub>亦表示测试集中的第q幅失真立体图像的右视点图像的客观质量评价预测值,w<sub>L,q</sub>表示Q<sub>L,q</sub>的权重,<img file="FDA0000932984250000045.GIF" wi="380" he="181" />w<sub>R,q</sub>表示Q<sub>R,q</sub>的权重,<img file="FDA0000932984250000046.GIF" wi="372" he="175" />符号“|| ||<sub>2</sub>”为求取矩阵的2‑范数符号,符号“&lt; &gt;”为求内积符号;⑩重复执行步骤⑦至步骤⑨P次,并使失真立体图像集合中的每幅失真立体图像至少有一次属于测试集,经过P次执行后计算失真立体图像集合中的每幅失真立体图像的客观质量评价预测值的平均值,再将失真立体图像集合中的每幅失真立体图像的客观质量评价预测值的平均值作为该幅失真立体图像的最终的客观质量评价预测值,其中,P的取值大于100。
地址 315211 浙江省宁波市江北区风华路818号