发明名称 基于深度玻尔兹曼机的协同目标分割与行为识别方法
摘要 本发明涉及一种基于深度玻尔兹曼机的协同目标分割与行为识别方法。该方法,首先利用深度玻尔兹曼机从目标行为训练库中学行为与动作的多层结构特征,接着以底层图像分割为出发点,根据贝叶斯推理,将目标分割看作最大化条件概率,然后在学得到的高层先验行为指导下,采用目标形状信息作为底层、中层和高层连接的纽带,并建立总的能量函数,最后通过能量极小化完成目标的同时分割与行为识别。本发明利用底层与高层的协同合作可以同时提高目标分割的精度和行为识别的准确性,解决了在低质量环境下由于噪声、遮挡、光照等多种因素影响下分割效果不佳的问题。
申请公布号 CN106599901A 申请公布日期 2017.04.26
申请号 CN201610878504.2 申请日期 2016.10.09
申请人 福州大学 发明人 陈飞;曾勋勋;王灿辉
分类号 G06K9/62(2006.01)I;G06T7/11(2017.01)I 主分类号 G06K9/62(2006.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 一种基于深度玻尔兹曼机的协同目标分割与行为识别方法,其特征在于:按以下步骤实现:步骤S1:建立目标的先验行为训练库S,记为S={(Q<sub>1</sub>,l<sub>1</sub>),(Q<sub>2</sub>,l<sub>2</sub>),…,(Q<sub>n</sub>,l<sub>n</sub>)};其中,n为样本个数,Q为目标的行为,l为行为的标记;一个目标行为由T个连续形状构成,即Q={q<sub>1</sub>,…,q<sub>T</sub>};形状q采用概率的方式定义,q:Ω→[0,1],其中Ω为图像的定义域,任意x∈Ω,q(x)表示x属于形状的概率;定义Ω中q(x)≥0.5的区域为目标区域,剩余区域为背景区域;假设目标的行为分为K类,用K维向量表示,记为l=(l<sub>1</sub>;l<sub>2</sub>;…;l<sub>K</sub>);步骤S2:利用深度玻尔兹曼机对目标行为训练库构建学习模型,其中最底层是目标的多张形状,最高层是行为标签;<img file="FDA0001126839190000011.GIF" wi="182" he="63" />为相应形状q<sub>1</sub>,…,q<sub>T</sub>的第一隐含层表示,h<sup>2</sup>为行为的隐含层表示;通过隐含层构建底层与高层的协同合作;令<img file="FDA0001126839190000012.GIF" wi="990" he="79" />为学习模型的参数,其中<img file="FDA0001126839190000013.GIF" wi="321" he="78" />表示q<sub>i</sub>与<img file="FDA0001126839190000014.GIF" wi="44" he="63" />之间的权值,W<sup>2</sup>与W<sup>3</sup>分别表示<img file="FDA0001126839190000015.GIF" wi="299" he="69" />与h<sup>2</sup>、h<sup>2</sup>与l之间的权值,<img file="FDA0001126839190000016.GIF" wi="62" he="63" />a<sup>2</sup>、a<sup>3</sup>和b<sub>i</sub>分别为<img file="FDA0001126839190000017.GIF" wi="67" he="62" />h<sup>2</sup>、l和q<sub>i</sub>所在层的偏值;标签层采用softmax分类方法,训练模型的能量方程定义为<maths num="0001"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><msub><mi>E</mi><mrow><mi>D</mi><mi>B</mi><mi>M</mi></mrow></msub><mrow><mo>(</mo><mo>&lsqb;</mo><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>q</mi><mi>T</mi></msub><mo>&rsqb;</mo><mo>,</mo><mo>&lsqb;</mo><msubsup><mi>h</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mi>T</mi><mn>1</mn></msubsup><mo>&rsqb;</mo><mo>,</mo><msup><mi>h</mi><mn>2</mn></msup><mo>,</mo><mi>l</mi><mo>;</mo><mi>&theta;</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mo>-</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msubsup><mi>q</mi><mi>t</mi><mi>T</mi></msubsup><msubsup><mi>W</mi><mi>t</mi><mn>1</mn></msubsup><msubsup><mi>h</mi><mi>t</mi><mn>1</mn></msubsup><mo>-</mo><msup><mrow><mo>&lsqb;</mo><mrow><msubsup><mi>h</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mi>T</mi><mn>1</mn></msubsup></mrow><mo>&rsqb;</mo></mrow><mi>T</mi></msup><msup><mi>W</mi><mn>2</mn></msup><msup><mi>h</mi><mn>2</mn></msup><mo>-</mo><msup><mi>h</mi><msup><mn>2</mn><mi>T</mi></msup></msup><msup><mi>W</mi><mn>3</mn></msup><mi>L</mi><mo>-</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msubsup><mi>a</mi><mi>t</mi><msup><mn>1</mn><mi>T</mi></msup></msubsup><msubsup><mi>h</mi><mi>t</mi><mn>1</mn></msubsup><mo>-</mo><msup><mi>a</mi><msup><mn>2</mn><mi>T</mi></msup></msup><msup><mi>h</mi><mn>2</mn></msup><mo>-</mo><msup><mi>a</mi><msup><mn>3</mn><mi>T</mi></msup></msup><mi>l</mi><mo>-</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msubsup><mi>b</mi><mi>t</mi><mi>T</mi></msubsup><msub><mi>q</mi><mi>t</mi></msub></mrow></mtd></mtr></mtable><mo>;</mo></mrow>]]></math><img file="FDA0001126839190000018.GIF" wi="1710" he="188" /></maths>步骤S3:以底层多张图像分割为出发点,根据贝叶斯推理,将目标分割看作最大化条件概率Ρ(q<sub>1</sub>,…,q<sub>T</sub>|I<sub>1</sub>,…,I<sub>T</sub>),即从给定的多张图像I<sub>1</sub>,…,I<sub>T</sub>中估计出最佳的目标形状向量q<sub>1</sub>,…,q<sub>T</sub>;假设多张图像之间相互独立,利用贝叶斯推理可得<maths num="0002"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>q</mi><mi>T</mi></msub><mo>|</mo><msub><mi>I</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>I</mi><mi>T</mi></msub></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>I</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>I</mi><mi>T</mi></msub><mo>|</mo><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>q</mi><mi>T</mi></msub></mrow><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>q</mi><mi>T</mi></msub></mrow><mo>)</mo></mrow></mrow><mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>I</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>I</mi><mi>T</mi></msub></mrow><mo>)</mo></mrow></mrow></mfrac><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>q</mi><mi>T</mi></msub></mrow><mo>)</mo></mrow><munderover><mi>&Pi;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>I</mi><mi>t</mi></msub><mo>|</mo><msub><mi>q</mi><mi>t</mi></msub></mrow><mo>)</mo></mrow></mrow><mrow><munderover><mi>&Pi;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><mi>P</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>t</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0001126839190000019.GIF" wi="1725" he="263" /></maths>最大化条件概率转换为最小化<img file="FDA00011268391900000110.GIF" wi="1043" he="79" />上式右边第一项称为先验形状约束项,记为E<sub>s</sub>(q<sub>1</sub>,…,q<sub>T</sub>)=‑logP(q<sub>1</sub>,…,q<sub>T</sub>),第二项为数据项<img file="FDA00011268391900000111.GIF" wi="731" he="87" />步骤S4:根据非参数灰度模型,计算数据项E<sub>d</sub>(q<sub>1</sub>,…,q<sub>T</sub>);假设每张图像中像素之间是相互独立的;从图像I<sub>t</sub>中估计形状q<sub>t</sub>,表示为logP(I<sub>t</sub>|q<sub>t</sub>)=∫<sub>Ω</sub>q<sub>t</sub>logP<sub>in</sub>(I<sub>t</sub>)+(1‑q<sub>t</sub>)logP<sub>out</sub>(I<sub>t</sub>)dx上式q<sub>t</sub>表示目标形状,1‑q<sub>t</sub>表示背景;概率P<sub>in</sub>(I<sub>t</sub>(x))表示每个像素点属于目标的概率,P<sub>out</sub>(I<sub>t</sub>(x))表示每个像素点属于背景的概率;以一维方式表示I<sub>t</sub>∈R<sup>m×1</sup>和q<sub>t</sub>∈R<sup>m×1</sup>,m为图像的像素点个数,记<img file="FDA0001126839190000021.GIF" wi="475" he="127" />那么,<maths num="0003"><math><![CDATA[<mrow><msub><mi>E</mi><mi>d</mi></msub><mrow><mo>(</mo><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>q</mi><mi>T</mi></msub><mo>)</mo></mrow><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msub><mo>&Integral;</mo><mi>&Omega;</mi></msub><msub><mi>q</mi><mi>t</mi></msub><mi>e</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>t</mi></msub><mo>)</mo></mrow><mi>d</mi><mi>x</mi><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msubsup><mi>e</mi><mi>t</mi><mi>T</mi></msubsup><msub><mi>q</mi><mi>t</mi></msub></mrow>]]></math><img file="FDA0001126839190000022.GIF" wi="902" he="87" /></maths>通常待分割的目标在不同图像中会呈现不同的姿态,引入循环移位的思想解决分割过程中目标出现的形变;步骤S5:由于目标行为的各个动作之间存在相关性,假设服从玻尔兹曼分布P(q<sub>1</sub>,…,q<sub>T</sub>)∝exp(‑E<sub>DBM</sub>(q<sub>1</sub>,…,q<sub>T</sub>)),那么E<sub>s</sub>(q<sub>1</sub>,…,q<sub>T</sub>)=‑logP(q<sub>1</sub>,…,q<sub>T</sub>)=E<sub>DBM</sub>(q<sub>1</sub>,…,q<sub>T</sub>)采用目标形状信息作为底层、中层和高层连接的纽带,利用深度玻尔兹曼机学习得到的模型<img file="FDA0001126839190000023.GIF" wi="762" he="79" />作为高层先验项,合并底层数据项<img file="FDA0001126839190000024.GIF" wi="114" he="62" />得到总的计算模型<maths num="0004"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>E</mi><mrow><mo>(</mo><mo>&lsqb;</mo><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>q</mi><mi>T</mi></msub><mo>&rsqb;</mo><mo>,</mo><mo>&lsqb;</mo><msubsup><mi>h</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mi>T</mi><mn>1</mn></msubsup><mo>&rsqb;</mo><mo>,</mo><msup><mi>h</mi><mn>2</mn></msup><mo>,</mo><mi>l</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mo>-</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msubsup><mi>q</mi><mi>t</mi><mi>T</mi></msubsup><msubsup><mi>W</mi><mi>t</mi><mn>1</mn></msubsup><msubsup><mi>h</mi><mi>t</mi><mn>1</mn></msubsup><mo>-</mo><msup><mrow><mo>&lsqb;</mo><mrow><msubsup><mi>h</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mi>T</mi><mn>1</mn></msubsup></mrow><mo>&rsqb;</mo></mrow><mi>T</mi></msup><msup><mi>W</mi><mn>2</mn></msup><msup><mi>h</mi><mn>2</mn></msup><mo>-</mo><msup><mi>h</mi><msup><mn>2</mn><mi>T</mi></msup></msup><msup><mi>W</mi><mn>3</mn></msup><mi>l</mi><mo>-</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msubsup><mi>a</mi><mi>t</mi><msup><mn>1</mn><mi>T</mi></msup></msubsup><msubsup><mi>h</mi><mi>t</mi><mn>1</mn></msubsup><mo>-</mo><msup><mi>a</mi><msup><mn>2</mn><mi>T</mi></msup></msup><msup><mi>h</mi><mn>2</mn></msup><mo>-</mo><msup><mi>a</mi><msup><mn>3</mn><mi>T</mi></msup></msup><mi>l</mi><mo>-</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msubsup><mi>b</mi><mi>t</mi><mi>T</mi></msubsup><msub><mi>q</mi><mi>t</mi></msub><mo>-</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msubsup><mi>e</mi><mi>t</mi><mi>T</mi></msubsup><msub><mi>q</mi><mi>t</mi></msub></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0001126839190000025.GIF" wi="1894" he="191" /></maths>步骤S6:以上模型包含四类未知参数,采用交替迭代和近似推理的方法求解,具体求解方程如下:<maths num="0005"><math><![CDATA[<mrow><mo>(</mo><mn>1</mn><mo>)</mo><mo>-</mo><mo>-</mo><mo>-</mo><mo>&lsqb;</mo><msubsup><mi>h</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mi>T</mi><mn>1</mn></msubsup><mo>&rsqb;</mo><mo>=</mo><mi>&sigma;</mi><mo>(</mo><mo>&lsqb;</mo><msubsup><mi>W</mi><mn>1</mn><mn>1</mn></msubsup><msub><mi>e</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>W</mi><mi>T</mi><mn>1</mn></msubsup><msub><mi>e</mi><mi>T</mi></msub><mo>&rsqb;</mo><mo>+</mo><mo>&lsqb;</mo><msubsup><mi>a</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>a</mi><mi>T</mi><mn>1</mn></msubsup><mo>&rsqb;</mo><mo>)</mo></mrow>]]></math><img file="FDA0001126839190000026.GIF" wi="1109" he="87" /></maths><maths num="0006"><math><![CDATA[<mrow><mo>(</mo><mn>2</mn><mo>)</mo><mo>-</mo><mo>-</mo><mo>-</mo><msup><mi>h</mi><mn>2</mn></msup><mo>=</mo><mi>&sigma;</mi><mo>(</mo><msup><mrow><mo>&lsqb;</mo><msubsup><mi>h</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mi>T</mi><mn>1</mn></msubsup><mo>&rsqb;</mo></mrow><mi>T</mi></msup><msup><mi>W</mi><mn>2</mn></msup><mo>+</mo><msup><mi>W</mi><mn>3</mn></msup><mi>l</mi><mo>+</mo><msup><mi>a</mi><msup><mn>2</mn><mi>T</mi></msup></msup><mo>)</mo></mrow>]]></math><img file="FDA0001126839190000027.GIF" wi="838" he="109" /></maths><maths num="0007"><math><![CDATA[<mrow><mo>(</mo><mn>3</mn><mo>)</mo><mo>-</mo><mo>-</mo><mo>-</mo><msub><mi>l</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><msubsup><mi>W</mi><mi>i</mi><mn>3</mn></msubsup><msup><mi>h</mi><mn>2</mn></msup><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mi>j</mi></msub><mi>exp</mi><mrow><mo>(</mo><msubsup><mi>W</mi><mi>j</mi><mn>3</mn></msubsup><msup><mi>h</mi><mn>2</mn></msup><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0001126839190000028.GIF" wi="502" he="167" /></maths><maths num="0008"><math><![CDATA[<mrow><mo>(</mo><mn>4</mn><mo>)</mo><mo>-</mo><mo>-</mo><mo>-</mo><mo>&lsqb;</mo><msubsup><mi>h</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mi>T</mi><mn>1</mn></msubsup><mo>&rsqb;</mo><mo>=</mo><mi>&sigma;</mi><mo>(</mo><msup><mi>W</mi><mn>2</mn></msup><msup><mi>h</mi><mn>2</mn></msup><mo>+</mo><mo>&lsqb;</mo><msubsup><mi>a</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>a</mi><mi>T</mi><mn>1</mn></msubsup><mo>&rsqb;</mo><mo>)</mo></mrow>]]></math><img file="FDA0001126839190000029.GIF" wi="854" he="87" /></maths><maths num="0009"><math><![CDATA[<mrow><mo>(</mo><mn>5</mn><mo>)</mo><mo>-</mo><mo>-</mo><mo>-</mo><mo>&lsqb;</mo><msub><mi>q</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>q</mi><mi>T</mi></msub><mo>&rsqb;</mo><mo>=</mo><mi>&sigma;</mi><mo>(</mo><mo>&lsqb;</mo><msubsup><mi>W</mi><mn>1</mn><mn>1</mn></msubsup><msubsup><mi>h</mi><mn>1</mn><mn>1</mn></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>W</mi><mi>T</mi><mn>1</mn></msubsup><msubsup><mi>h</mi><mi>T</mi><mn>1</mn></msubsup><mo>&rsqb;</mo><mo>+</mo><mo>&lsqb;</mo><msub><mi>b</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>b</mi><mi>T</mi></msub><mo>&rsqb;</mo><mo>)</mo><mo>.</mo></mrow>]]></math><img file="FDA0001126839190000031.GIF" wi="1093" he="79" /></maths>
地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区