发明名称 一种面向视频会议编码的客观质量评估方法
摘要 本发明公开了一种面向视频会议编码的客观质量评估方法,包括训练和评估两部分;训练部分包括步骤一:脸部及脸部区域提取;步骤二:获取单个像素点的受关注程度;步骤三:对脸部区域进行校准和归一化;步骤四:获取高斯混合模型;评估部分包括步骤一:针对一组视频,自动提取出背景、脸部、左眼、右眼、嘴、鼻子区域内像素个数;步骤二:对脸部区域进行校准和归一化;步骤三:获取权重图谱;步骤四:计算基于高斯混合模型的峰值信噪比,评估视频会议系统编码后的图像质量。本发明避免了传统方法未考虑到视频内容的不足,可通过赋予视频图像脸部更多的权重,提升图像质量评估的精度,使其更加反映主观质量评估的结果。
申请公布号 CN104506852B 申请公布日期 2016.08.24
申请号 CN201410826849.4 申请日期 2014.12.25
申请人 北京航空航天大学 发明人 徐迈;马源;张京泽
分类号 H04N17/00(2006.01)I;H04N19/154(2014.01)I 主分类号 H04N17/00(2006.01)I
代理机构 北京永创新实专利事务所 11121 代理人 赵文颖
主权项 一种面向视频会议编码的客观质量评估方法,包括训练和评估两部分;训练部分包括以下几个步骤:步骤一:脸部及脸部区域提取;利用脸部特征自动标定算法在给定的视频会议序列中自动提取出背景、脸部、左眼、右眼、嘴、鼻子区域内像素个数;步骤二:进行眼动仪实验,获取测试者观看视频时对于每一帧图像的关键点坐标位置,得到单个像素点的受关注程度;设单个区域的受关注程度为眼睛关键点数目/该区域像素个数efp/p,其中单个区域为左眼、右眼、嘴、鼻子、脸部其他区域或者背景,则:<maths num="0001"><math><![CDATA[<mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>c</mi><mi>r</mi></msub><mo>=</mo><msub><mi>f</mi><mi>r</mi></msub><mo>/</mo><msub><mi>p</mi><mi>r</mi></msub></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>c</mi><mi>l</mi></msub><mo>=</mo><msub><mi>f</mi><mi>l</mi></msub><mo>/</mo><msub><mi>p</mi><mi>l</mi></msub></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>c</mi><mi>m</mi></msub><mo>=</mo><msub><mi>f</mi><mi>m</mi></msub><mo>/</mo><msub><mi>p</mi><mi>m</mi></msub></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>c</mi><mi>n</mi></msub><mo>=</mo><msub><mi>f</mi><mi>n</mi></msub><mo>/</mo><msub><mi>p</mi><mi>n</mi></msub></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>c</mi><mi>o</mi></msub><mo>=</mo><msub><mi>f</mi><mi>o</mi></msub><mo>/</mo><msub><mi>p</mi><mi>o</mi></msub></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>c</mi><mi>b</mi></msub><mo>=</mo><msub><mi>f</mi><mi>b</mi></msub><mo>/</mo><msub><mi>p</mi><mi>b</mi></msub></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000964827120000011.GIF" wi="302" he="383" /></maths>其中:c<sub>r</sub>、c<sub>l</sub>、c<sub>m</sub>、c<sub>n</sub>、c<sub>o</sub>、c<sub>b</sub>分别表示右眼、左眼、口、鼻子、脸部其他区域、背景区域的单个像素点的关注程度,f<sub>r</sub>、f<sub>l</sub>、f<sub>m</sub>、f<sub>n</sub>、f<sub>o</sub>、f<sub>b</sub>分别表示在眼动仪实验中,测试者落在右眼、左眼、口、鼻、脸部其他区域、背景区域的眼睛关键点数目,p<sub>r</sub>、p<sub>l</sub>、p<sub>m</sub>、p<sub>n</sub>、p<sub>o</sub>、p<sub>b</sub>分别表示右眼、左眼、口、鼻、脸部其他区域、背景区域中的像素点数目;步骤三:对脸部区域进行校准和归一化;具体方法为:随机选取一帧图像,采用图像脸部区域关键点中最左侧点,作为校准原始点B,获取其他图像中脸部区域关键点中最左侧点A,获取A、B之间坐标转换关系,将其他图像中关键点根据坐标转换关系进行转换,完成校准;随机选取一帧图像,采用图像中人物右眼的横坐标长度作为归一化单元,将其他图像中的关键点根据归一化单元进行归一化处理;步骤四:获取高斯混合模型;假设眼睛注视点服从高斯混合模型,在归一化与校准眼动仪数据的基础上,通过高斯混合模型写成高斯分量的线性叠加如下:<img file="FDA0000964827120000021.GIF" wi="454" he="175" /><img file="FDA0000964827120000022.GIF" wi="1214" he="157" />其中:<img file="FDA0000964827120000023.GIF" wi="145" he="59" />表示一个高斯分量,π<sub>k</sub>,μ<sub>k</sub>和Σ<sub>k</sub>是第k个高斯分量的混合系数,均值和方差,且x<sup>*</sup>表示二维校准和归一化后的眼睛注视点;K代表GMM的高斯分量的数量;上述步骤1‑4在离线情况下,针对一组训练视频,获得用于评估视频会议系统客观质量的高斯混合模型;评估部分包括以下几个步骤:步骤一:针对一组视频,重复训练部分步骤一,自动提取出背景、脸部、左眼、右眼、嘴、鼻子区域内像素个数;步骤二:重复训练过程的步骤三,对脸部区域进行校准和归一化;步骤三:在训练阶段获得高斯混合模型基础上,计算出右眼、左眼、口、鼻、脸部其他区域、背景区域的权重及以上各区域周围的高斯分布权重,得到权重图谱;步骤四:在权重图谱基础上,计算基于高斯混合模型的峰值信噪比,评估视频会议系统编码后的图像质量。
地址 100191 北京市海淀区学院路37号