一种面向多视点视频的语义对象分割方法,申请号CN201210222728.X-传众专利搜索

发明名称	一种面向多视点视频的语义对象分割方法
摘要	本发明公开了一种面向多视点视频的语义对象分割方法，特点是包括了视觉特征提取、统计建模、参数估计、标记与区域合并四个步骤；优点是专门针对多视点视频，充分利用了多视点视频中颜色、对比度、空间频率运动等综合视觉特征，采用基于统计建模的方法对多视点视频进行语义对象分割，可以获得比较准确的分割结果，能有效降低过分割或欠分割现象，有效提高分割结果的主观视觉感知匹配性。
申请公布号	CN102799646B	申请公布日期	2015.09.30
申请号	CN201210222728.X	申请日期	2012.06.27
申请人	浙江万里学院	发明人	朱仲杰;王玉儿
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	宁波奥圣专利代理事务所(普通合伙) 33226	代理人	程晓明
主权项	一种面向多视点视频的语义对象分割方法，其特征在于包括以下步骤：(1)、视觉特征提取：对图像中的每个像素分别提取像素灰度值、8‑邻域灰度均值、对比度敏感度、空间频率、二维空间坐标的特征分量，即映射后的每个像素可以用一个六维的特征矢量来表示，图像中所有像素映射后的矢量全体构成一个六维的特征空间I，表示为I={P<sub>l</sub>}，P<sub>l</sub>表示第l个像素的六维特征矢量，表示为<img file="FDA00001814577700011.GIF" wi="537" he="70" />l=0,1,..,N，其中N表示图像中像素的总个数，x<sub>l</sub>,y<sub>l</sub>表示第l个像素的位置坐标，g<sub>l</sub>表示第l个像素的灰度值，<img file="FDA00001814577700012.GIF" wi="44" he="62" />表示第l个像素的8‑邻域灰度均值，f<sub>l</sub>表示第l个像素空间频率，<img file="FDA00001814577700013.GIF" wi="44" he="45" />表示第l个像素的对比度敏感度，<img file="FDA00001814577700014.GIF" wi="45" he="45" />的计算方法为<img file="FDA00001814577700015.GIF" wi="745" he="72" />(2)、统计建模：将特征空间I用有限混合模型表示为<img file="FDA00001814577700016.GIF" wi="619" he="120" />Θ={K,ω，θ}表示模型的参数，其中K表示混合成分的数量，ω={ω<sub>i</sub>\|i＝1,…,K}表示K个混合成分的混合系数，θ={θ<sub>i</sub>\|i＝1,…,K}表示K个混合成分的模型参数，X表示像素的特征矢量分布的随机矢量，S<sub>i</sub>表示第i个混合成分，θ<sub>i</sub>表示第i个混合成分的模型参数，ω<sub>i</sub>表示第i个混合成分的混合系数，P(X\|S<sub>i</sub>,θ<sub>i</sub>)表示具有相似视觉特征的第i类像素所对应的混合成分的概率密度函数，将有限混合模型的各类像素所对应的混合成分均视为服从高斯分布，则P(X\|S<sub>i</sub>,θ<sub>i</sub>)可以表示为<img file="FDA00001814577700017.GIF" wi="1292" he="118" />μ<sub>i</sub>和∑<sub>i</sub>分别表示X的均值和X的方差矩阵，det(∑<sub>i</sub>)表示∑<sub>i</sub>的行列式，d表示X的维数，此时模型的参数为Θ={K,ω<sub>i</sub>,μ<sub>i</sub>,∑<sub>i</sub>\|i=1,…,K}；(3)、参数估计：采用极大似然估计法估计模型的参数，<img file="FDA00001814577700018.GIF" wi="449" he="61" />其中，L(I,Θ)=‑∑logP(X \|I,Θ)表示目标函数，参数估计的具体步骤如下：a、提取深度图，对深度图采用分水岭算法进行预分割，统计分割区域数量，作为初始K值；b、采用EM算法进行模型的参数估计，迭代进行E步和M步，直到满足收敛条件，在E步，计算第l个像素X<sub>l</sub>来自第i个混合成分S<sub>i</sub>的后验概率：<img file="FDA00001814577700021.GIF" wi="1429" he="199" />其中，X<sub>l</sub>表示第l个像素的特征矢量，k表示迭代次数，<img file="FDA00001814577700022.GIF" wi="348" he="57" />分别表示第k次迭代计算得到的μ<sub>i</sub>、ω<sub>i</sub>和∑<sub>i</sub>；在M步，基于E步得到的后验概率，更新模型的参数：<img file="FDA00001814577700023.GIF" wi="653" he="120" /><img file="FDA00001814577700024.GIF" wi="663" he="262" /><img file="FDA00001814577700025.GIF" wi="1161" he="256" />其中，<img file="FDA00001814577700026.GIF" wi="435" he="57" />分别表示第k+1次迭代计算得到的μ<sub>i</sub>、ω<sub>i</sub>和∑<sub>i</sub>；c、当EM算法收敛后，执行合并操作，具体步骤如下:对任意两个混合成分S<sub>i</sub>和S<sub>j</sub>，计算二者的相似度M<sub>ij</sub>，计算公式为M<sub>ij</sub>=τD<sub>kl</sub>(I,S<sub>ij</sub>)+(1‑τ)D<sub>kl</sub>(S<sub>i</sub>,S<sub>j</sub>)，1≤i≤K,1≤j≤K，其中τ表示加权系数，设置为τ=0.5，S<sub>ij</sub>表示S<sub>i</sub>与S<sub>j</sub>的和，表示将混合成分S<sub>i</sub>与混合成分S<sub>j</sub>所各自对应的图像像素进行合并，合并后的像素全体属于同一个混合成分，记为S<sub>ij</sub>，将上述公式中的D<sub>kl</sub>(I,S<sub>ij</sub>)表示为D<sub>kl</sub>(I,S<sub>i</sub>)，D<sub>kl</sub>(I,S<sub>i</sub>)表示第i个混合成分S<sub>i</sub>与图像的局部概率密度函数 P(X\|I,θ<sub>i</sub>)之间的Kullback‑Leibler距离，用来衡量第i个混合成分S<sub>i</sub>与有限混合模型全体数据之间的匹配性，D<sub>kl</sub>(S<sub>i</sub>,S<sub>j</sub>)表示第i个混合成分S<sub>i</sub>与第j个混合成分S<sub>j</sub>之间的Kullback‑Leibler距离，用来衡量两个混合成分S<sub>i</sub>与S<sub>j</sub>所对应的概率分布之间的的差异，其中D<sub>kl</sub>(I,S<sub>i</sub>)与D<sub>kl</sub>(S<sub>i</sub>,S<sub>j</sub>)的定义如下：<img file="FDA00001814577700031.GIF" wi="812" he="142" /><img file="FDA00001814577700032.GIF" wi="836" he="141" />其中，P(X\|I,θ<sub>i</sub>)表示与P(X\|S<sub>i</sub>,θ<sub>i</sub>)相对应的图像局部的采样密度，其计算方式如下：<img file="FDA00001814577700033.GIF" wi="775" he="255" />其中，δ(X‑X<sub>l</sub>)表示单位脉冲函数，当X‑X<sub>l</sub>=0时，δ(X‑X<sub>l</sub>)=1，否则δ(X‑X<sub>l</sub>)=0；P(S<sub>i</sub>,θ<sub>i</sub>\|X)表示P(X\|S<sub>i</sub>,θ<sub>i</sub>)的后验概率，其计算方法如下：<img file="FDA00001814577700034.GIF" wi="608" he="199" />而P(S<sub>i</sub>,θ<sub>i</sub>\|X<sub>l</sub>)则表示第l个像素属于第i个混合成分S<sub>i</sub>的后验概率；根据M<sub>ij</sub>计算阈值T<sub>m</sub>，T<sub>m</sub>的计算方法如下：<img file="FDA00001814577700035.GIF" wi="546" he="126" />将计算出的每一个M<sub>ij</sub>分别与T<sub>m</sub>进行比较，如果M<sub>ij</sub>大于阈值T<sub>m</sub>，则将S<sub>i</sub>与S<sub>j</sub>进行合并，认为S<sub>i</sub>与S<sub>j</sub>的数据属于同一个混合成分，此时将混合成分的数量K的值减1，当所有的M<sub>ij</sub>与T<sub>m</sub>进行比较完成后，K值就表示合并后的混合成分的最终数量；(4)、标记与区域合并：模型的参数估计结束后，计算各个像素属于各混合成分类的后验概率，基于后验概率对图像进行标记，即对第l个像素X<sub>l</sub>，如果<img file="FDA00001814577700041.GIF" wi="591" he="98" />1≤P≤K，l=0,1，...,N，则将像素X<sub>l</sub>标记为第i类，其中p是表示混合成分的数量的一个变量，<img file="FDA00001814577700042.GIF" wi="476" he="98" />表示使ω<sub>p</sub>P(S<sub>p</sub>,θ<sub>p</sub>\|X<sub>l</sub>)取最大值时p的值，基于标记结果进行区域连通性分析与后处理后将图像分割成一系列均匀区域，对上述分割结果基于运动信息进行进一步的区域合并，具体步骤如下：首先利用帧差法提取二值运动掩模图像，用O<sub>B</sub>(x,y)表示，O<sub>B</sub>(x,y)=1表示运动区域，O<sub>B</sub>(x,y)=0表示静止区域，设O<sub>s</sub>(s=0,1,…,Q)表示基于统计建模的分割结果，Q表示区域数量，令N<sub>s</sub>表示区域O<sub>s</sub>的大小，定义其运动活动性α<sub>sB</sub>如下：<img file="FDA00001814577700043.GIF" wi="459" he="122" />(s=0,1,…,Q)，比较每个区域与其临域的运动活动性，选取运动活动性之差最小的两个区域进行合并，然后计算合并后的新的区域的运动活动性，然后再次进行领域搜索与合并，直到最后所有领域的运动活动性之差大于实际给定的阈值α<sub>T</sub>，阈值α<sub>T</sub>设置为0.5，最后对合并后的对象进行形态后处理运算，即得到最终的语义分割结果。
地址	315100 浙江省宁波市钱湖南路8号