发明名称 基于人眼视觉特性的视频噪声估计方法
摘要 本发明涉及一种基于人眼视觉特性的视频噪声估计方法。现有方法存在大量的误检和漏检,尤其是对经过编解码的噪声视频。本发明首先准备视频库并进行人工标注得到MOS,通过分析视频的亮度分布、视频帧间的物体运动和随机变化确定视频的过暗、过亮区域,提取帧间的非运动变化量作为噪声评价的参考量<img file="dest_path_image002.GIF" wi="14" he="16" />,在噪声评价阶段引入恰可感知模型来衡量噪声的视觉可见程度<img file="232690dest_path_image002.GIF" wi="14" he="16" />,用帧间的结构变化程度衡量噪声的视觉效果<img file="dest_path_image004.GIF" wi="13" he="16" />,同时估计MOS和<img file="dest_path_image006.GIF" wi="36" he="16" />之间的关系模型。本发明可以有效的解决目前现有方法存在的问题,对非高斯模型的噪声,甚至是非独立同分布的噪声都有比较好的效果,同时评价结果和人眼的视觉效果有很强的相关性。
申请公布号 CN102790844A 申请公布日期 2012.11.21
申请号 CN201210242301.6 申请日期 2012.07.13
申请人 浙江捷尚视觉科技有限公司 发明人 尚凌辉;林国锡;王亚利;高勇
分类号 H04N5/14(2006.01)I 主分类号 H04N5/14(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 杜军
主权项 1. 基于人眼视觉特性的视频噪声估计方法,其特征在于该方法包括以下步骤:步骤1)噪声强度人工标注:准备一个视频库,该视频库包含了不同场景不同噪声程度的视频,每个视频都由多个不同的人对其进行噪声程度主观打分,分值在0到100之间,每个视频的噪声程度平均值MOS为这个视频的噪声程度的人眼主观分数;步骤2)去噪:为了能更精确定位运动区域,降低噪声对定位的干扰,首先对视频中的每一帧图像做一个去噪处理;步骤3)运动区域定位:帧间像素变化可分为三种情况:干扰、光线变化或物体运动;步骤2)已经对视频做了去噪处理,所以这里的帧间变化只需要区分物体运动还是光线变化;在相机固定的情况下,当光线发生变化时,局部区域的帧间像素变化存在如公式(1)所示的规律;假设局部光照一致性,对前后帧图像进行像素归一化,如公式(2、3)所示,将归一化后图像<img file="2012102423016100001DEST_PATH_IMAGE002.GIF" wi="29" he="26" />和<img file="2012102423016100001DEST_PATH_IMAGE004.GIF" wi="20" he="25" />做帧差,分块计算帧差图像的方差,将方差大于阈值<img file="2012102423016100001DEST_PATH_IMAGE006.GIF" wi="18" he="25" />的块记为运动区域;<img file="DEST_PATH_IMAGE008.GIF" wi="13" he="20" /><img file="DEST_PATH_IMAGE010.GIF" wi="169" he="57" />(1)<img file="DEST_PATH_IMAGE012.GIF" wi="129" he="77" />(2)<img file="DEST_PATH_IMAGE014.GIF" wi="157" he="28" />(3)其中<img file="DEST_PATH_IMAGE016.GIF" wi="66" he="28" />表示视频的第n帧图像中坐标(<img file="DEST_PATH_IMAGE018.GIF" wi="17" he="25" />,<img file="DEST_PATH_IMAGE020.GIF" wi="17" he="25" />)处的像素值,<img file="DEST_PATH_IMAGE022.GIF" wi="76" he="28" />表示视频的第n+1帧图像中坐标(<img file="396155DEST_PATH_IMAGE018.GIF" wi="17" he="25" />,<img file="535012DEST_PATH_IMAGE020.GIF" wi="17" he="25" />)处的像素值,<img file="DEST_PATH_IMAGE024.GIF" wi="70" he="30" />表示视频的第n帧图像中坐标(<img file="DEST_PATH_IMAGE026.GIF" wi="18" he="26" />,<img file="DEST_PATH_IMAGE028.GIF" wi="20" he="26" />)处的像素值,<img file="DEST_PATH_IMAGE030.GIF" wi="80" he="30" />表示视频的第n+1帧图像中坐标(<img file="741609DEST_PATH_IMAGE026.GIF" wi="18" he="26" />,<img file="53642DEST_PATH_IMAGE028.GIF" wi="20" he="26" />)处的像素值;<img file="DEST_PATH_IMAGE032.GIF" wi="93" he="40" />表示第n帧图像局部区域<img file="DEST_PATH_IMAGE034.GIF" wi="13" he="13" />像素值之和,<img file="DEST_PATH_IMAGE036.GIF" wi="101" he="40" />表示第n+1帧图像局部区域<img file="288183DEST_PATH_IMAGE034.GIF" wi="13" he="13" />像素值之和,<img file="DEST_PATH_IMAGE038.GIF" wi="16" he="20" />表示光照变化率,<img file="DEST_PATH_IMAGE040.GIF" wi="68" he="28" />表示局部光照一致性下估计得到的第n+1帧图像;步骤4)过亮、过暗区域的定位:摄像头的动态范围都是比较有限的,当拍摄场景中同时存在低照度和高照度区域超过了摄像头的动态调节范围时,图像中的过亮、过暗区域将出现截止现象,同时对噪声也存在截止现象,所以过亮、过暗区域的噪声强度较其它区域偏低;为了使噪声估计结果更加鲁棒,在噪声估计时应该过滤过亮、过暗区域的干扰,所述的过亮区域为像素值在225-255之间的区域,所述的过暗区域为像素值在0-30之间的区域;步骤5)噪声掩膜:考虑到物体运动和亮度对噪声估计的影响,对非运动区域和非过亮、过暗区域进行噪声强度估计,将这两种区域记为噪声掩膜;步骤6)恰可感知模型JND:该模型的基本思想是在某一背景亮度下,像素值在一定范围内变化时,人眼不能感知,经过试验像素变化的感知存在一个临界点被称为恰可感知点,不同背景下的恰可感知点可由公式(4)表示,其中<img file="DEST_PATH_IMAGE042.GIF" wi="21" he="25" />表示区域的背景亮度;<img file="DEST_PATH_IMAGE044.GIF" wi="165" he="25" />(4)步骤7)帧间非运动变化:设定噪声掩膜区域的帧差为帧间非运动变化;步骤8)噪声的可见程度:将帧间的非运动变化和JND图像进行比较,得到噪声的可见程度记为<img file="DEST_PATH_IMAGE046.GIF" wi="14" he="16" />,这里的非运动变化还包含了光线变化,将在下一步计算中进行过滤;步骤9)帧间结构变化:对未去噪的原始视频的前后帧进行步骤2)操作,将噪声方差记为噪声的视觉效果,该视觉效果用<img file="DEST_PATH_IMAGE048.GIF" wi="13" he="16" />表示,方差越大表明噪声的视觉效果越强,这里可以很好的过滤掉光线变化,因为光线变化引起的帧间变化方差非常小;步骤10)噪声强度特征和噪声程度平均值MOS的拟合:步骤8)和步骤9)已经获取了噪声强度和人眼视觉感受相关的特征值,分别是<img file="841350DEST_PATH_IMAGE046.GIF" wi="14" he="16" />和<img file="725123DEST_PATH_IMAGE048.GIF" wi="13" he="16" />,但是<img file="DEST_PATH_IMAGE050.GIF" wi="36" he="16" />和噪声程度平均值MOS之间并非线性关系,采用公式(5)进行非线性拟合<img file="DEST_PATH_IMAGE052.GIF" wi="148" he="25" />(5)其中<img file="DEST_PATH_IMAGE054.GIF" wi="90" he="22" />均表示非线性模型的参数;步骤11)噪声强度计算:对待估计视频通过步骤2)到步骤9)计算特征值<img file="152431DEST_PATH_IMAGE050.GIF" wi="36" he="16" />,代入公式(5)即可得到符合人眼视觉特征的噪声强度值。
地址 310013 浙江省杭州市西湖区天目山路398号尚坤大厦四楼南座