发明名称 基于在线序贯极限学机的递增式人体行为识别方法
摘要 一种基于在线序贯极限学机的递增式人体行为识别方法,该方法基于所有人的活动范围能够用摄像机捕捉到人体;包括以下步骤:(1)采用3D Harris角点检测子提取视频中的时空兴趣点;(2)利用3D SIFT描述子计算检测到的时空兴趣点的描述子;(3)采用K-means聚类算法生成视频词典,建立视频图像的词包模型;(4)用得到视频词包模型训练在线序贯极限学机分类器;(5)利用在线序贯极限学机分类器进行人体行为识别,并进行在线学。该方法不但能够在训练样本很少的情况下,以较少的训练时间,获得较为精确的人体行为识别结果,而且对于环境场景变化、环境光照变化、检测对象变化、人体形态变化具有一定的不敏感性。
申请公布号 CN102930302B 申请公布日期 2016.01.13
申请号 CN201210398379.7 申请日期 2012.10.18
申请人 山东大学 发明人 马昕;周生凯;李贻斌
分类号 G06K9/66(2006.01)I 主分类号 G06K9/66(2006.01)I
代理机构 济南金迪知识产权代理有限公司 37219 代理人 宁钦亮
主权项 一种基于在线序贯极限学习机的递增式人体行为识别方法,其特征是,基于以下条件:在静态背景环境下,人的活动范围能够用摄像机捕捉到;具体包括以下步骤:(1)采用3D Harris角点检测子提取视频中的时空兴趣点,定义角函数在时间和空间同时取得局部最大的极值点为空兴趣点;(2)利用3D SIFT描述子计算检测到的时空兴趣点的描述子;(3)采用K‑means聚类算法生成视频词典,建立视频图像的词包模型;(4)用得到视频词包模型训练在线序贯极限学习机分类器;(5)利用在线序贯极限学习机分类器进行人体行为识别,并进行在线学习;所述步骤(1)的具体实现方法是:3D Harris检测子是将Harris角点检测子从空间(x,y)扩展到时空(x,y,t)得到的,定义的时空角函数为:H=det(μ)‑ktrace<sup>3</sup>(μ),H&gt;0,其中,时空二阶矩<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>&mu;</mi><mrow><mo>(</mo><mo>&CenterDot;</mo><mo>;</mo><msub><mi>&sigma;</mi><mi>l</mi></msub><mo>,</mo><msub><mi>&tau;</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>g</mi><mrow><mo>(</mo><mo>&CenterDot;</mo><mo>;</mo><msub><mi>&sigma;</mi><mi>i</mi></msub><mo>,</mo><msub><mi>&tau;</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>*</mo><mrow><mo>(</mo><mo>&dtri;</mo><mi>L</mi><mrow><mo>(</mo><mo>&CenterDot;</mo><mo>;</mo><mi>&sigma;</mi><mo>,</mo><mi>&tau;</mi><mo>)</mo></mrow><msup><mrow><mo>(</mo><mo>&dtri;</mo><mi>L</mi><mrow><mo>(</mo><mo>&CenterDot;</mo><mo>;</mo><mi>&sigma;</mi><mo>,</mo><mi>&tau;</mi><mo>)</mo></mrow><mo>)</mo></mrow><mi>T</mi></msup><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000693373090000011.GIF" wi="1018" he="85" /></maths>上标T表示矩阵转置,σ<sub>l</sub>,τ<sub>l</sub>分别为局部空间和时间尺度,σ<sub>i</sub>=sσ<sub>l</sub>和τ<sub>i</sub>=sτ<sub>l</sub>为集成尺度,i表示集成,系数s把局部空间和时间尺度σ<sub>l</sub>,τ<sub>l</sub>转变为集成尺度σ<sub>i</sub>,τ<sub>i</sub>,s的取值范围为(0,1),g(x,y,t;σ<sup>2</sup>,τ<sup>2</sup>)为高斯平滑函数,σ,τ分别为空间和时间尺度:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>g</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>t</mi><mo>;</mo><msup><mi>&sigma;</mi><mn>2</mn></msup><mo>,</mo><msup><mi>&tau;</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msqrt><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mn>3</mn></msup><msup><mi>&sigma;</mi><mn>4</mn></msup><msup><mi>&tau;</mi><mn>2</mn></msup></msqrt></mfrac><mo>&times;</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mrow><mo>(</mo><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>y</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>/</mo><mn>2</mn><msup><mi>&sigma;</mi><mn>2</mn></msup><mo>-</mo><msup><mi>t</mi><mn>2</mn></msup><mo>/</mo><mn>2</mn><msup><mi>&tau;</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000693373090000012.GIF" wi="1310" he="158" /></maths><img file="FDA0000693373090000013.GIF" wi="82" he="58" />是时空梯度:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mrow><mo>(</mo><mo>&dtri;</mo><mi>L</mi><mrow><mo>(</mo><mo>&CenterDot;</mo><mo>;</mo><mi>&sigma;</mi><mo>,</mo><mi>&tau;</mi><mo>)</mo></mrow><msup><mrow><mo>(</mo><mo>&dtri;</mo><mi>L</mi><mrow><mo>(</mo><mo>&CenterDot;</mo><mo>;</mo><mi>&sigma;</mi><mo>,</mo><mi>&tau;</mi><mo>)</mo></mrow><mo>)</mo></mrow><mi>T</mi></msup><mo>)</mo></mrow><mo>=</mo><mfenced open='(' close=')'><mtable><mtr><mtd><msubsup><mi>L</mi><mi>x</mi><mn>2</mn></msubsup></mtd><mtd><msub><mi>L</mi><mi>x</mi></msub><msub><mi>L</mi><mi>y</mi></msub></mtd><mtd><msub><mi>L</mi><mi>x</mi></msub><msub><mi>L</mi><mi>t</mi></msub></mtd></mtr><mtr><mtd><msub><mi>L</mi><mi>x</mi></msub><msub><mi>L</mi><mi>y</mi></msub></mtd><mtd><msubsup><mi>L</mi><mi>y</mi><mn>2</mn></msubsup></mtd><mtd><msub><mi>L</mi><mi>y</mi></msub><msub><mi>L</mi><mi>t</mi></msub></mtd></mtr><mtr><mtd><msub><mi>L</mi><mi>x</mi></msub><msub><mi>L</mi><mi>y</mi></msub></mtd><mtd><msub><mi>L</mi><mi>y</mi></msub><msub><mi>L</mi><mi>t</mi></msub></mtd><mtd><msubsup><mi>L</mi><mi>t</mi><mn>2</mn></msubsup></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000693373090000014.GIF" wi="1103" he="276" /></maths>其中,<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>L</mi><mi>x</mi></msub><mrow><mo>(</mo><mo>.</mo><mo>;</mo><msubsup><mi>&sigma;</mi><mi>l</mi><mn>2</mn></msubsup><mo>,</mo><msubsup><mi>&tau;</mi><mi>l</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>=</mo><msub><mo>&PartialD;</mo><mi>x</mi></msub><mrow><mo>(</mo><mi>g</mi><mo>*</mo><mi>f</mi><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000693373090000015.GIF" wi="500" he="83" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>L</mi><mi>y</mi></msub><mrow><mo>(</mo><mo>.</mo><mo>;</mo><msubsup><mi>&sigma;</mi><mi>l</mi><mn>2</mn></msubsup><mo>,</mo><msubsup><mi>&tau;</mi><mi>l</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>=</mo><msub><mo>&PartialD;</mo><mi>y</mi></msub><mrow><mo>(</mo><mi>g</mi><mo>*</mo><mi>f</mi><mo>)</mo></mrow><mo>,</mo><mo>,</mo></mrow>]]></math><img file="FDA0000693373090000016.GIF" wi="579" he="88" /></maths><maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msub><mi>L</mi><mi>t</mi></msub><mrow><mo>(</mo><mo>.</mo><mo>;</mo><msubsup><mi>&sigma;</mi><mi>l</mi><mn>2</mn></msubsup><mo>,</mo><msubsup><mi>&tau;</mi><mi>l</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>=</mo><msub><mo>&PartialD;</mo><mi>t</mi></msub><mrow><mo>(</mo><mi>g</mi><mo>*</mo><mi>f</mi><mo>)</mo></mrow><mo>.</mo></mrow>]]></math><img file="FDA0000693373090000017.GIF" wi="494" he="78" /></maths>其中,f:R<sup>2</sup>×R→R为构造函数,L<sub>x</sub>、L<sub>y</sub>和L<sub>t</sub>分别为视频图像上三维时空点(x,y,t)在x,y,t方向上的梯度;通过寻找角函数在时间和空间同时取得局部最大的极值点来检测时空兴趣点;所述步骤(2)的具体实现方法是:通过在方向直方图中增加一个深层维度,将2D SIFT描述子(x,y)扩展到3D SIFT描述子(x,y,t),梯度值的计算公式为:<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msub><mi>m</mi><mrow><mn>3</mn><mi>D</mi></mrow></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msqrt><msubsup><mi>L</mi><mi>x</mi><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>L</mi><mi>y</mi><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>L</mi><mi>t</mi><mn>2</mn></msubsup></msqrt><mo>,</mo></mrow>]]></math><img file="FDA0000693373090000021.GIF" wi="635" he="107" /></maths>θ(x,y,t)=tan<sup>‑1</sup>(L<sub>y</sub>/L<sub>x</sub>),<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><mi>&phi;</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msup><mi>tan</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mfrac><msub><mi>L</mi><mi>t</mi></msub><msqrt><msubsup><mi>L</mi><mi>x</mi><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>L</mi><mi>y</mi><mn>2</mn></msubsup></msqrt></mfrac><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000693373090000022.GIF" wi="651" he="201" /></maths>m<sub>3D</sub>(x,y,t)为三维时空点(x,y,t)的梯度值,θ(x,y,t)=tan<sup>‑1</sup>(L<sub>y</sub>/L<sub>x</sub>)和<img file="FDA0000693373090000023.GIF" wi="575" he="202" />分别表示二维梯度方向角和偏离二维梯度方向角,L<sub>x</sub>、L<sub>y</sub>和L<sub>t</sub>分别为视频图像上三维时空点(x,y,t)在x,y,t方向上的梯度,其中:L<sub>x</sub>≈L(x+1,y,t)‑L(x‑1,y,t),L<sub>y</sub>≈L(x,y+1,t)‑L(x,y‑1,t),L<sub>t</sub>≈L(x,y,t+1)‑L(x,y,t‑1)),L(x,y,t)表示视频图像在三维时空点(x,y,t)上的灰度值;这样,时空兴趣点三维邻域内的每个像素点有θ(x,y,t)和φ(x,y,t)两个值表示其时空梯度方向,将时空兴趣点的三维邻域分成大小相等的块,通过直方图统计找到时空兴趣点的主方向(θ<sup>*</sup>,φ<sup>*</sup>),所有时空兴趣点周围的三维邻域按照主方向旋转角度<img file="FDA0000693373090000024.GIF" wi="205" he="155" />使得描述子具有旋转不变性,旋转矩阵定义如下:<maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><mfenced open='[' close=']'><mtable><mtr><mtd><mi>cos</mi><mrow><mo>(</mo><msup><mi>&theta;</mi><mo>*</mo></msup><mo>)</mo></mrow><mi>cos</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mo>*</mo></msup><mo>)</mo></mrow></mtd><mtd><mo>-</mo><mi>sin</mi><mrow><mo>(</mo><msup><mi>&theta;</mi><mo>*</mo></msup><mo>)</mo></mrow></mtd><mtd><mo>-</mo><mi>cos</mi><mrow><mo>(</mo><msup><mi>&theta;</mi><mo>*</mo></msup><mo>)</mo></mrow><mi>sin</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mo>*</mo></msup><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mi>sin</mi><mrow><mo>(</mo><msup><mi>&theta;</mi><mo>*</mo></msup><mo>)</mo></mrow><mi>cos</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mo>*</mo></msup><mo>)</mo></mrow></mtd><mtd><mi>cos</mi><mrow><mo>(</mo><msup><mi>&theta;</mi><mo>*</mo></msup><mo>)</mo></mrow></mtd><mtd><mo>-</mo><mi>sin</mi><mrow><mo>(</mo><msup><mi>&theta;</mi><mo>*</mo></msup><mo>)</mo></mrow><mi>sin</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mo>*</mo></msup><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mi>sin</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mo>*</mo></msup><mo>)</mo></mrow></mtd><mtd><mn>0</mn></mtd><mtd><mi>cos</mi><mrow><mo>(</mo><msup><mi>&phi;</mi><mo>*</mo></msup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000693373090000025.GIF" wi="1123" he="254" /></maths>将时空兴趣点邻域划分成子区域,在子区域中每个像素点包含着一个梯度值和两个方向信息,对于每一个三维子区域,用以时空兴趣点为中心的Gaussian窗加权梯度值,作为相应梯度方向子区域的梯度值。
地址 250100 山东省济南市历城区山大南路27号