发明名称 基于混合图模型的图像序列类别标注方法
摘要 本发明公开了一种基于混合图模型的图像序列类别标注方法,包括:对图像序列进行超像素分割,对超像素进行特征描述;对连续两帧图像进行帧间超像素的最近邻匹配;基于单帧图像超像素间空间域的邻接关系和多帧图像超像素间时间域的匹配关系,使用混合图模型对图像序列类别标注问题进行全局优化建模;该全局优化问题使用线性方法求解,得到连续多帧图像超像素的类别标签;本发明构建的混合图模型与以往图模型相比,既可以描述单帧图像中超像素之间的一阶的、对称的关系,也可以描述连续两帧图像超像素之间的高阶的、非对称的关系,并通过线性方法求解,有效地赋予了图像序列每个超像素一个时域上一致性更好、准确率更高的类别标签。
申请公布号 CN104881681A 申请公布日期 2015.09.02
申请号 CN201510268996.9 申请日期 2015.05.22
申请人 浙江大学 发明人 黄文琦;龚小谨;刘济林
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 邱启旺
主权项 一种基于混合图模型的图像序列类别标注方法,其特征在于,包括如下步骤:(1)输入图像序列,使用SLIC算法对图像序列中每一帧图像进行超像素分割,获得超像素p,将得到的第t帧图像的第i个超像素记为p<sub>i</sub><sup>t</sup>;(2)使用Kernel描述符对步骤1中获得的超像素进行特征描述,得到超像素的特征向量,将超像素p<sub>i</sub><sup>t</sup>的特征向量记为f<sub>i</sub><sup>t</sup>;(3)采用KNN算法对步骤1中连续两帧图像的超像素进行时间域的匹配;(4)构建基于混合图模型的全局优化问题,该混合图模型由顶点、两种简单边和一种超边组成;该混合图模型的顶点的集合记为ν,每一个顶点v表示一个超像素的类别标签;该混合图模型的第一种简单边代表顶点ν的先验信息,该先验信息用势能函数E<sub>E</sub>(f<sub>c</sub>)描述;该混合图模型的第二种简单边代表单帧图像空间域上邻接的顶点之间对称的、成对的关系,这种关系用势能函数E<sub>S</sub>(f<sub>c</sub>)描述;该混合图模型的超边代表连续帧图像时间域上匹配的顶点之间不对称的、高阶的关系,这种关系用势能函数E<sub>H</sub>(f<sub>c</sub>)描述;所述势能函数E<sub>E</sub>(f<sub>c</sub>)的定义为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>E</mi><mi>E</mi></msub><mrow><mo>(</mo><msub><mi>f</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mo>&Exists;</mo><mi>seed</mi><mo>&Element;</mo><mi>v</mi></mrow></munder><msup><mrow><mo>|</mo><msub><mi>f</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>-</mo><msub><mover><mi>f</mi><mo>&OverBar;</mo></mover><mi>c</mi></msub><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>|</mo></mrow><mn>2</mn></msup><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000011.GIF" wi="1276" he="132" /></maths>其中,<img file="FDA0000722271440000014.GIF" wi="190" he="56" />表示的是存在类别种子点的超像素v,种子点通过人工标注部分像素点类别标签的方法获得;f<sub>c</sub>是一个|ν|维的列向量,由f<sub>c</sub>(v),v∈ν组成,其中f<sub>c</sub>(v)为分类函数,其值表示顶点v属于类别c的置信度,取值范围在[0,1]之间;<img file="FDA0000722271440000013.GIF" wi="405" he="91" />表示超像素v属于类别c的置信度的观测值,该观测值通过卷积递归神经网络分类器获得,c∈{1,2,...,C},C表示类别总数;所述势能函数E<sub>S</sub>(f<sub>c</sub>)的定义为:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>E</mi><mi>S</mi></msub><mrow><mo>(</mo><msub><mi>f</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>v</mi><mo>&Element;</mo><mi>&nu;</mi></mrow></munder><munder><mi>&Sigma;</mi><mrow><mi>u</mi><mo>&Element;</mo><mi>N</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></mrow></munder><msub><mi>e</mi><mi>S</mi></msub><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000012.GIF" wi="1194" he="134" /></maths>其中,e<sub>S</sub>(u,v)为一条第二种简单边,即单帧图像内相邻两个超像素u,v之间的关系,定义为:e<sub>S</sub>(u,v)=w<sub>s</sub>(u,v)·||f<sub>c</sub>(u)‑f<sub>c</sub>(v)||<sup>2</sup>,   (3)其中f<sub>c</sub>(u)∈[0,1]为超像素u属于类别c的置信度,该置信度通过递归卷积神经网络学习获得,w<sub>s</sub>(u,v)为超像素u,v之间简单边的权重:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>w</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>f</mi><mi>v</mi></msub><mo>-</mo><msub><mi>f</mi><mi>u</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><msup><msub><mi>&sigma;</mi><mi>s</mi></msub><mn>2</mn></msup></mfrac><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000021.GIF" wi="1261" he="191" /></maths>σ<sub>s</sub>是根据实验经验设置的常数;所述势能函数E<sub>H</sub>(f<sub>c</sub>)的定义为:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>E</mi><mi>H</mi></msub><mrow><mo>(</mo><msub><mi>f</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>e</mi><mo>&Element;</mo><msub><mi>&epsiv;</mi><mi>H</mi></msub></mrow></munder><msub><mi>e</mi><mi>H</mi></msub><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000022.GIF" wi="1256" he="123" /></maths>其中,ε<sub>H</sub>表示混合图模型中超边的集合,e<sub>H</sub>(e)为一条超边e∈ε<sub>H</sub>描述的帧间时域上匹配的多个超像素之间的关系,定义为:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>e</mi><mi>H</mi></msub><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>u</mi><mo>,</mo><mi>v</mi><mo>&Element;</mo><mi>&nu;</mi></mrow></munder><mfrac><mrow><msub><mi>w</mi><mi>H</mi></msub><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mi>H</mi><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>e</mi><mo>)</mo></mrow><mi>H</mi><mrow><mo>(</mo><mi>v</mi><mo>,</mo><mi>e</mi><mo>)</mo></mrow></mrow><mrow><mi>&delta;</mi><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow></mrow></mfrac><mo>&times;</mo><msup><mrow><mo>(</mo><mfrac><mrow><mi>f</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></mrow><msqrt><mi>d</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></msqrt></mfrac><mo>-</mo><mfrac><mrow><mi>f</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></mrow><msqrt><mi>d</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></msqrt></mfrac><mo>)</mo></mrow><mn>2</mn></msup><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000023.GIF" wi="1568" he="199" /></maths>其中,每一条超边e∈ε<sub>H</sub>的权重为w<sub>H</sub>(e),定义为:<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msub><mi>w</mi><mi>H</mi></msub><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>u</mi><mo>&Element;</mo><mi>M</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow></mrow></munder><msub><mi>w</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000024.GIF" wi="1177" he="127" /></maths>M(v)表示在时序上与超像素v匹配的超像素的集合,Η为关联矩阵,该矩阵的大小为|ν|×|ε<sub>H</sub>|,Η(v,e)的定义为:<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>v</mi><mo>,</mo><mi>e</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>,</mo></mtd><mtd><mi>v</mi><mo>&Element;</mo><mi>e</mi></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo></mtd><mtd><mi>v</mi><mo>&NotElement;</mo><mi>e</mi></mtd></mtr></mtable></mfenced><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000025.GIF" wi="1184" he="160" /></maths>Η(u,e)的定义为:<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>e</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>,</mo></mtd><mtd><mi>u</mi><mo>&Element;</mo><mi>e</mi></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo></mtd><mtd><mi>u</mi><mo>&NotElement;</mo><mi>e</mi></mtd></mtr></mtable></mfenced><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000026.GIF" wi="1188" he="161" /></maths>d(v)为超图中顶点v∈ν的度,定义为:<maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><mi>d</mi><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>e</mi><mo>&Element;</mo><msub><mi>&epsiv;</mi><mi>H</mi></msub></mrow></munder><msub><mi>w</mi><mi>H</mi></msub><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>H</mi><mrow><mo>(</mo><mi>v</mi><mo>,</mo><mi>e</mi><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000027.GIF" wi="1265" he="124" /></maths>d(u)为超图中顶点u∈V的度,定义为:<maths num="0010" id="cmaths0010"><math><![CDATA[<mrow><mi>d</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>e</mi><mo>&Element;</mo><msub><mi>E</mi><mi>H</mi></msub></mrow></munder><msub><mi>w</mi><mi>H</mi></msub><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>H</mi><mrow><mo>(</mo><mi>u</mi><mo>,</mo><mi>e</mi><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000028.GIF" wi="1276" he="124" /></maths>δ(e)为超边e∈ε<sub>H</sub>的度,定义为:<maths num="0011" id="cmaths0011"><math><![CDATA[<mrow><mi>&delta;</mi><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><mi>v</mi><mo>&Element;</mo><mi>&nu;</mi></mrow></munder><mi>H</mi><mrow><mo>(</mo><mi>v</mi><mo>,</mo><mi>e</mi><mo>)</mo></mrow><mo>.</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000031.GIF" wi="1077" he="123" /></maths>该混合图模型的全局优化问题描述如下:<maths num="0012" id="cmaths0012"><math><![CDATA[<mrow><munder><mrow><mi>arg</mi><mi>min</mi><msub><mi>E</mi><mi>E</mi></msub></mrow><msub><mi>f</mi><mi>c</mi></msub></munder><mrow><mo>(</mo><msub><mi>f</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>&lambda;</mi><mn>1</mn></msub><msub><mi>E</mi><mi>S</mi></msub><mrow><mo>(</mo><msub><mi>f</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>&lambda;</mi><mn>2</mn></msub><msub><mi>E</mi><mi>H</mi></msub><mrow><mo>(</mo><msub><mi>f</mi><mi>c</mi></msub><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000038.GIF" wi="1473" he="122" /></maths>其中,λ<sub>1</sub>和λ<sub>2</sub>为调整三项势能函数之间比例关系的权重;(5)对每一个类别c求解公式(13)中的向量f<sub>c</sub>,得到顶点v∈ν属于类别c的置信度,具体包括以下子步骤:(5.1)将全局优化函数,公式(13)矩阵化为:<img file="FDA0000722271440000032.GIF" wi="1534" he="111" />其中,S为种子点标识矩阵,它是一个|ν|×|v|维的对角矩阵,定义如下<maths num="0013" id="cmaths0013"><math><![CDATA[<mrow><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>,</mo></mtd><mtd><mo>&Exists;</mo><mi>seeds</mi><mo>&Element;</mo><msub><mi>v</mi><mi>i</mi></msub></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo></mtd><mtd><mi>otherwise</mi><mo>,</mo></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000033.GIF" wi="1198" he="158" /></maths>该对角矩阵仅在存在目标假设种子点的超像素<sub>i</sub>对应的位置S(i,i)值为1,其它位置值为0,W<sub>s</sub>是一个K×|ν|的稀疏矩阵,其每一行代表一对空间相邻的两个超像素u,v之间的差运算,分别用<img file="FDA0000722271440000034.GIF" wi="213" he="99" />与<img file="FDA0000722271440000035.GIF" wi="239" he="97" />作为对应超像素点u,v位置的权重,<img file="FDA0000722271440000039.GIF" wi="208" he="61" />是超图的拉普拉斯矩阵,I是一个|ν|×|ν|的单位阵,Θ=D<sub>v</sub><sup>‑1/2</sup>HW<sub>H</sub>D<sub>e</sub><sup>‑1</sup>H<sup>T</sup>D<sub>v</sub><sup>‑1/2</sup>,D<sub>v</sub>是一个|ν|×|ν|的对角阵,每个对角线上的元素为超图中对应的顶点的度d(v),D<sub>e</sub>是一个|ε<sub>H</sub>|×|ε<sub>H</sub>|的对角阵,每个对角线上的元素为超图中对应的超边的度δ(e),W<sub>H</sub>是一个|ε<sub>H</sub>|×|ε<sub>H</sub>|的对角阵,每个对角线上的元素为超图中对应的超边的权重w<sub>H</sub>(e);(5.2)对全局优化函数公式(14)中的每个类别c的置信度f<sub>c</sub>,进行线性优化,利用一阶导数等于零得到f<sub>c</sub>的全局最优解:<img file="FDA0000722271440000036.GIF" wi="1276" he="103" />(6)将步骤5中所有类别c∈{1,2,...,C}求解得到的向量用矩阵F=(f<sub>1</sub>,f<sub>2</sub>,...,f<sub>C</sub>)表示,每个顶点v∈ν的类别标签由该顶点的类别置信度最大值决定,如下所示:<maths num="0014" id="cmaths0014"><math><![CDATA[<mrow><mi>L</mi><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi><mi>F</mi></mrow><mi>c</mi></munder><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>17</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000722271440000037.GIF" wi="1245" he="100" /></maths>其中,L为每个顶点类别标签组成的列向量。
地址 310058 浙江省杭州市西湖区余杭塘路866号