发明名称 基于概率图模型的非参数化的RGB-D场景理解方法
摘要 本发明公开了一种基于概率图模型的非参数化的RGB-D场景理解方法。将待标注图像与训练集中已标注的图像进行全局特征匹配,构建待标注图像相似图像的检索集;将待标注图像及其相似图像检索集中的图像进行过分割,生成超像素,并对生成的超像素进行特征提取;计算训练集中各个类别所占的比例,构建稀有类别的词典,与相似图像的检索集一起作为待标注图像的标签源;将待标注图像中的每个超像素与该图像标签源中的所有超像素进行特征匹配;构建概率图模型,利用马尔科夫随机场将最大化后验概率转化成最小化能量函数的优化问题,利用图割方法求解该问题得到待标注图像每个超像素的语义标注。本发明整合了全局和局部的几何信息,提高了RGB-D场景理解的性能。
申请公布号 CN104599275A 申请公布日期 2015.05.06
申请号 CN201510039559.X 申请日期 2015.01.27
申请人 浙江大学 发明人 费婷婷;龚小谨
分类号 G06T7/00(2006.01)I;G06F17/30(2006.01)I 主分类号 G06T7/00(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 林松海
主权项 一种基于概率图模型的非参数化的RGB‑D场景理解方法,其特征在于,包括如下步骤:(1)输入待标注图像,利用GIST特征、颜色直方图、法向量直方图三种全局特征将待标注图像与训练集中的图像进行特征匹配,构建待标注图像的相似图像检索集;(2)将步骤1输入的待标注图像及得到的相似图像检索集中的图像进行过分割,生成超像素,并利用梯度核描述符、颜色核描述符以及深度梯度核描述符三种核描述符(Kernel descriptor)提取超像素的特征f<sub>i</sub>,其中i表示超像素的索引值;计算训练集中各个语义类别所占的比例,分别对各个稀有类别的超像素进行K‑means聚类,取每个聚类的中心构建该稀有类别的词典;将所有稀有类别的词典与步骤1得到的相似图像检索集一起作为待标注图像的标签源;(3)将步骤2得到的待标注图像中的每个超像素的特征<img file="FDA0000662112570000011.GIF" wi="128" he="82" />与该图像标签源中的所有超像素的特征<img file="FDA0000662112570000012.GIF" wi="136" he="78" />进行双向特征匹配,生成匹配集<img file="FDA0000662112570000013.GIF" wi="169" he="79" />匹配度用基于协同表示分类(CRC)的残差度量;其中P,Q分别表示待标注图像中所有超像素的数量和标签源中所有超像素的数量;(4)把步骤2得到的超像素的特征作为节点,将具有共同边界的超像素相连,构建概率图模型,将求解最大化后验概率的问题转化成求解最小化能量函数的马尔科夫随机场(MRF),其描述如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>L</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mi>i</mi></munder><msub><mi>&psi;</mi><mi>data</mi></msub><mrow><mo>(</mo><msub><mi>l</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>&lambda;</mi><munder><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></munder><msub><mi>&psi;</mi><mi>smooth</mi></msub><mrow><mo>(</mo><msub><mi>l</mi><mi>i</mi></msub><mo>,</mo><msub><mi>l</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000662112570000014.GIF" wi="1357" he="124" /></maths>其中,L表示待标注图像所有超像素的标签集,ψ<sub>data</sub>是马尔科夫随机场(MRF)的数据项,ψ<sub>smooth</sub>是马尔科夫随机场(MRF)的平滑项,l<sub>i</sub>和l<sub>j</sub>分别表示索引值为i和j的超像素的语义标签,λ是平衡系数;(5)根据步骤3得到的匹配结果构建马尔科夫随机场(MRF)的数据项ψ<sub>data</sub>,其描述如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>&psi;</mi><mi>data</mi></msub><mrow><mo>(</mo><msub><mi>l</mi><mi>i</mi></msub><mo>=</mo><mi>c</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><msub><mrow><mo>|</mo><mo>|</mo><msub><mi>f</mi><mi>i</mi></msub><mo>-</mo><msub><mi>F</mi><mi>c</mi></msub><msubsup><mi>&alpha;</mi><mi>c</mi><mo>*</mo></msubsup><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msub></mtd><mtd><mfenced open='' close=''><mtable><mtr><mtd><mi>if</mi></mtd><mtd><mi>c</mi><mo>&Element;</mo><mi>C</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>i</mi></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mtd></mtr><mtr><mtd><mi>&beta;</mi></mtd><mtd><mi>otherwisr</mi></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000662112570000015.GIF" wi="1402" he="176" /></maths>其中s<sub>i</sub>表示索引值为i的超像素,F<sub>c</sub>表示步骤4得到的匹配集m<sub>i</sub>中标签为c的超像素的核描述符按列排列构建得到的测量矩阵,<img file="FDA0000662112570000021.GIF" wi="75" he="90" />为测量矩阵F<sub>c</sub>对应的系数矩阵,C(s<sub>i</sub>)表示匹配集m<sub>i</sub>中语义类别集合,β是一个自定义的比<img file="FDA0000662112570000022.GIF" wi="256" he="102" />大的常数,用来惩罚<img file="FDA0000662112570000028.GIF" wi="207" he="81" />的情况;根据图像超像素邻域间的平滑关系构建马尔科夫随机场(MRF)的平滑项ψ<sub>smooth</sub>,其描述如下:<img file="FDA0000662112570000023.GIF" wi="1452" he="84" />其中<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>&delta;</mi><mrow><mo>(</mo><mi>c</mi><mo>&NotEqual;</mo><msup><mi>c</mi><mo>&prime;</mo></msup><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mi>c</mi><mo>&NotEqual;</mo><msup><mi>c</mi><mo>&prime;</mo></msup></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>c</mi><mo>=</mo><msup><mi>c</mi><mo>&prime;</mo></msup></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000662112570000024.GIF" wi="1170" he="148" /></maths>其中<img file="FDA0000662112570000025.GIF" wi="152" he="70" />表示相邻超像素表面法向量间的平滑性,<img file="FDA0000662112570000026.GIF" wi="146" he="75" />表示相邻超像素的核描述符之间的平滑性。
地址 310027 浙江省杭州市西湖区浙大路38号