一种视角无关的动作识别方法,申请号CN200810232110.5-传众专利搜索

发明名称	一种视角无关的动作识别方法
摘要	本发明公开了一种视角无关的动作识别方法，该方法按照以下步骤实施，首先同步采集正面、倾斜、侧面3个方向下的人体视频数据，预处理采集到的视频数据得到二值人体轮廓信息，根据3个方向下的二值人体轮廓信息进行人体3维体态的雕刻重建；然后提取人体运动过程的动态部分形成运动动态能量体及3维体态的运动权值模型，采用3维伪Zernike矩进行比例不变、位移不变、旋转不变的特征描述；最后使用条件随机场为每一个动作建立概率图模型，并进行识别。本发明的视角无关的动作识别方法解决了现有监控场景中要求固定视角的限制，实现了任意方向下的人体动作识别，且识别率高。
申请公布号	CN101425139B	申请公布日期	2010.09.01
申请号	CN200810232110.5	申请日期	2008.11.05
申请人	西安理工大学	发明人	张二虎;赵永伟
分类号	G06K9/00(2006.01)I;G06K9/20(2006.01)I;G06K9/54(2006.01)I;G06K9/62(2006.01)I	主分类号	G06K9/00(2006.01)I
代理机构	西安弘理专利事务所 61214	代理人	罗笛
主权项	1.一种视角无关的动作识别方法，其特征在于，该方法按照以下步骤实施，步骤1：提取正面、倾斜、侧面3个方向下的二值人体轮廓信息：使用3个摄像机分别从正面、倾斜、侧面3个方向对要识别的动作体态同步进行视频数据采集，设θ为拍摄角度，则正面θ＝0°，倾斜θ＝45°，侧面θ＝90°，对得到的视频数据进行预处理从而得到二值图像信息f<sub>0</sub>(w，h)、f<sub>45</sub>(w，h)、f<sub>90</sub>(w，h)，其中f<sub>0</sub>(w，h)、f<sub>45</sub>(w，h)、f<sub>90</sub>(w，h)分别表示运动人体在θ＝0°、θ＝45°、θ＝90°下的投影的二值图像信息；步骤2：根据上步得到的要识别动作体态的正面、倾斜、侧面3个方向下的二值人体图像信息，进行人体3维体态的雕刻重建，得到该体态的3维雕刻模型；步骤3：在上步得到的每个动作体态的3维雕刻模型中提取人体运动过程的动态部分形成运动动态能量体及3维体态的运动权值模型，采用3维伪Zernike矩进行比例不变、位移不变、旋转不变的特征描述，得到动作体态的视角无关的特征数据；步骤4：根据上步得到的动作体态的特征数据使用条件随机场为每一个动作建立概率图模型，并进行识别；所述的步骤2中进行人体3维体态的雕刻重建，其具体操作是：2.1、假设一个3维的矩阵M，M(x，y，h)表示该3维矩阵中(x，y，h)位置处的值，X、Y、H分别为该3维矩阵的长、宽、高，令M(x，y，h)＝1，1≤x≤X，1≤y≤Y，1≤h≤H；2.2、将步骤1得到的二值图像信息f<sub>0</sub>(w，h)、f<sub>45</sub>(w，h)、f<sub>90</sub>(w，h)投影到上步中的3维矩阵M上，根据f<sub>0</sub>(w，h)、f<sub>45</sub>(w，h)、f<sub>90</sub>(w，h)的值，按照如下的公式对3维矩阵M中的值重新进行赋值，得到该体态的3维雕刻模型M(x，y，h)，<img file="FSB00000053364700021.GIF" wi="1607" he="138" />其中(w<sub>1</sub>，h)、(w<sub>2</sub>，h)、(w<sub>3</sub>，h)分别表示3维矩阵M中的一点(x，y，h)在θ＝0°、θ＝45°、θ＝90°下的投影；所述的步骤3中的3维体态特征描述方法包括以下的步骤：3.1、根据步骤2所述的方法，对一个运动序列的所有体态进行3维雕刻重建后，使用下面的公式计算该运动序列的3维运动能量体：<maths num="0001"><![CDATA[<math><mrow><mi>MEV</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>h</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>T</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>M</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>h</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中M<sub>t</sub>(x，y，h)表示运动序列中第t个体态的3维雕刻模型在点(x，y，h)处的值，等于0表示该点为背景点，等于1表示该点为前景点，T是该运动序列的长度；3.2、根据上步得到的一个序列的运动能量体，计算该序列的运动动态能量体：<maths num="0002"><![CDATA[<math><mrow><mi>MDEV</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>h</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>-</mo><mi>MEV</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>h</mi><mo>)</mo></mrow></mtd><mtd><mi>MEV</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>h</mi><mo>)</mo></mrow><mo>></mo><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>others</mi></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>3.3、将一个运动序列的所有3维雕刻体态和该运动序列的运动动态能量体对应位置上的值进行相乘，从而得到各个体态的运动权值模型：MGM<sub>t</sub>(x，y，h)＝M<sub>t</sub>(x，y，h)×MDEV(x，y，h) (4)3.4、根据上步得到的各个体态的运动权值模型，为每个体态的3维运动权值模型建立一个圆柱体坐标系，在该坐标系下使用下面的3维伪Zernike矩公式对运动序列中的每个运动权值模型提取其具有比例不变性、位移不变性、旋转不变性的特征数据，<maths num="0003"><![CDATA[<math><mrow><msub><mi>P</mi><mi>pq</mi></msub><mo>=</mo><mfrac><mrow><mi>p</mi><mo>+</mo><mn>1</mn></mrow><mi>π</mi></mfrac><mo>&Integral;</mo><mo>&Integral;</mo><mi>MGM</mi><mrow><mo>(</mo><mi>r</mi><mo>,</mo><mi>θ</mi><mo>,</mo><mi>h</mi><mo>)</mo></mrow><msup><mi>W</mi><mo></mo></msup><mrow><mo>(</mo><mi>r</mi><mo>,</mo><mi>θ</mi><mo>)</mo></mrow><mi>drdθdh</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中，W(r，θ)＝S<sub>pq</sub>(r)exp(iqθ)，<img file="FSB00000053364700032.GIF" wi="924" he="121" />P<sub>pq</sub>表示动作序列中3维运动权值模型MGM的p阶q次3维伪Zernike矩，p是正整数或零，q是整数，并且\|q\|≤p，“”表示复数共轭；所述的步骤4动作建模和识别方法包括以下的步骤：4.1、根据步骤3提取的运动序列的特征数据，用线性链结构的条件随机场方法建立动作概率图模型，并进行训练；4.2、根据上步建立的动作概率图模型，从待识别动作序列中提取特征数据进行识别，并且在条件随机场模型的两类特征函数基础上根据具体的动作增加2个限制条件：每个状态的出现顺序以及每个状态的持续时间，如下所述：假设O＝{o<sub>1</sub>，o<sub>2</sub>，…，o<sub>T</sub>}表示一个长度为T的动作序列的特征向量序列，这是一个值可以被观察的“输入”随机变量集合，S＝{s<sub>1</sub>，s<sub>2</sub>，…，s<sub>N</sub>}表示一类动作中定义的N个状态，这是一个值能够被模型预测的“输出”随机变量集合。在线性链的情况下，条件随机场假设在各个输出节点之间存在一阶马尔科夫独立性，即<img file="FSB00000053364700033.GIF" wi="618" he="77" />其中V-{i}表示除去节点i的其他所有节点，N<sub>i</sub>表示节点i的相邻节点，即<img file="FSB00000053364700034.GIF" wi="301" he="58" />这样，在给定一个输入序列O的情况下，线性链的条件随机场定义状态序列的条件概率为：<maths num="0004"><![CDATA[<math><mrow><mi>p</mi><mrow><mo>(</mo><mi>S</mi><mo>\|</mo><mi>O</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msub><mi>Z</mi><mi>θ</mi></msub><mrow><mo>(</mo><mi>O</mi><mo>)</mo></mrow></mrow></mfrac><mi>exp</mi><mrow><mo>(</mo><munder><mi>Σ</mi><mi>t</mi></munder><msub><mi>F</mi><mi>θ</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>s</mi><mi>t</mi></msub><mo>,</mo><mi>O</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0005"><![CDATA[<math><mrow><msub><mi>F</mi><mi>θ</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>s</mi><mi>t</mi></msub><mo>,</mo><mi>O</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>Σ</mi><mi>k</mi></munder><msub><mi>λ</mi><mi>k</mi></msub><msub><mi>f</mi><mi>k</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>s</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>+</mo><munder><mi>Σ</mi><mi>k</mi></munder><msub><mi>μ</mi><mi>k</mi></msub><msub><mi>g</mi><mi>k</mi></msub><mrow><mo>(</mo><msub><mi>s</mi><mi>t</mi></msub><mo>,</mo><mi>O</mi><mo>)</mo></mrow><mo>+</mo><munder><mi>Σ</mi><mi>k</mi></munder><msub><mi>α</mi><mi>k</mi></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>S</mi><mrow><mo>{</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>}</mo></mrow></msub><mo>,</mo><msub><mi>s</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>+</mo><munder><mi>Σ</mi><mi>k</mi></munder><msub><mi>β</mi><mi>k</mi></msub><mi>q</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>t</mi></msub><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中f<sub>k</sub>(s<sub>t-1</sub>，s<sub>t</sub>)和g<sub>k</sub>(s<sub>t</sub>，O)是原CRF中的两个特征函数，分别表示状态s<sub>t-1</sub>向s<sub>t</sub>的转移关系以及观察序列O和状态s<sub>t</sub>的依赖关系，p(S<sub>{1，…，t-1}</sub>，s<sub>t</sub>)是状态出现顺序的特征函数，q(s<sub>t</sub>，T)是状态s<sub>t</sub>持续了T时间的特征函数，θ＝{λ<sub>k</sub>，μ<sub>k</sub>，α<sub>k</sub>，β<sub>k</sub>}是每个特征函数的权值，Z<sub>θ</sub>(O)为归一化因子，且<img file="FSB00000053364700041.GIF" wi="709" he="97" />
地址	710048 陕西省西安市金花南路5号