发明名称 一种多视角多状态的步态识别方法
摘要 本发明提出一种多视角多状态的步态识别方法,包括:对训练集里步态视频进行轮廓提取和时间同步,建立表象期望值、视角、状态和身份之间的投影关系;对原型集人体步态轮廓序列进行视角估计,从表象期望值、视角、状态、身份之间的投影关系获得身份信息;对测试集里人体步态轮廓序列进行视角估计,从训练集中的表象期望值、视角、状态、身份之间的投影关系获得身份信息,与原型集里已有的所有身份向量进行比对,判断得到是原型集中的哪一个人。与现有的基于整个步态周期的方法不同,本发明以单个状态作为最小单位,更加准确的建模步态运动的变化过程并用于识别,训练出各个视角下的多状态模型,能够估计待识别视频的步态视角。
申请公布号 CN102426645A 申请公布日期 2012.04.25
申请号 CN201110252287.3 申请日期 2011.08.30
申请人 北京航空航天大学 发明人 张兆翔;胡懋地;王蕴红;刘建芸
分类号 G06K9/00(2006.01)I;G06K9/62(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 北京永创新实专利事务所 11121 代理人 官汉增
主权项 1.一种多视角多状态的步态识别方法,其特征在于:具体包括以下几个步骤:步骤一:对训练集里多个已知视角的多段步态视频进行轮廓提取和时间同步,对不同视角下的多状态模型进行参数估计,建立表象期望值、视角、状态和身份之间的投影关系;(1)对训练集里每一个人在不同视角下的行走视频,顺次通过前景检测、形态学滤波和归一化处理,提取每一个人各视角下的人体步态轮廓序列;(2)采用局部线性嵌入、互相关系数分析和序列平移的方法,将获得的各个视角的人体步态轮廓序列进行时间上的同步;(3)在训练集中选择一个视角作为基础视角,根据该基础视角的所有人的人体步态轮廓序列,建立一个包含状态间的转移参数和各状态的表象参数的多状态模型来表征该基础视角下的步态特性;状态间的转移参数表征各状态之间的转移关系,各状态的表象参数表征各状态下表现出来的步态特征;各个视角下的多状态模型选择隐马尔可夫-混合高斯模型,其状态间的转移参数用维数为状态数的转移概率矩阵表示,各状态的表象参数用混合高斯模型表示,使用波氏估计算法得到基础视角下的状态间的转移参数和各状态的表象参数,得到多状态模型;(4)建立训练集里除基础视角以外其他所有视角的多状态模型,其状态间的转移参数直接由基础视角下多状态模型中的状态间的转移参数复制得到,对于各状态的表象参数,先采用步骤一(3)中基础视角下的多状态模型对基础视角的所有人体步态轮廓序列进行维特比解码求出人体步态轮廓序列中各帧的状态,按照各帧状态的不同,将基础视角下人体步态轮廓序列分成若干子序列,分割后的每个子序列内的所有帧拥有同一状态,然后将步骤一(2)中时间同步后的其他所有视角下的所有人体步态轮廓序列依照基础视角下的分割产生各状态的子序列进行分割,再以这些其他所有视角下的各状态的子序列为样本,用混合高斯模型的期望最大化算法估计出其他所有视角下的各状态的表象参数,根据状态间的转移参数和各状态的表象参数,得到除基础视角以外其他所有视角的多状态模型;(5)由步骤一(3)和步骤一(4)中获得的各个视角下的多状态模型,用维特比解码得到各个视角下的所有人体步态轮廓序列各帧的状态,获得每一个人的各视角下的各状态的表象期望值,并在表象期望值、视角、状态和身份这四个维度的张量空间中进行奇异值分解,得到表象期望值、视角、状态、身份之间的投影关系;所述的表象期望值、视角、状态、身份之间的投影关系的建立是将整个训练集表示为张量积形式G,其中,S是由张量奇异值分解得到的张量核,U<sub>feature</sub>、U<sub>sctance</sub>、U<sub>view</sub>、U<sub>person</sub>分别是表象期望值、视角、状态和身份这四个维度的投影矩阵:G=S×<sub>1</sub>U<sub>feature</sub>×<sub>2</sub>U<sub>stance</sub>×<sub>3</sub>U<sub>vier</sub>×<sub>4</sub>U<sub>person</sub><maths num="0001"><![CDATA[<math><mrow><mi>S</mi><mo>=</mo><mi>G</mi><msub><mo>&times;</mo><mn>1</mn></msub><msubsup><mi>U</mi><mi>feature</mi><mi>T</mi></msubsup><msub><mo>&times;</mo><mn>2</mn></msub><msubsup><mi>U</mi><mrow><mi>s</mi><mi>tan</mi><mi>ce</mi></mrow><mi>T</mi></msubsup><msub><mo>&times;</mo><mn>3</mn></msub><msubsup><mi>U</mi><mi>view</mi><mi>T</mi></msubsup><msub><mo>&times;</mo><mn>4</mn></msub><msubsup><mi>U</mi><mi>person</mi><mi>T</mi></msubsup></mrow></math>]]></maths>步骤二:对原型集里每一个人的一段或多段人体步态轮廓序列进行视角估计,将提取的步态特征输入到估计视角下的步骤一得到的多状态模型,从表象期望值、视角、状态、身份之间的投影关系获得身份信息;(1)从原型集里每一个人的所有行走视频中提取出一个或多个待识别人体步态轮廓序列,由步骤一获得的各个视角的多状态模型计算后验概率,对于每个人体步态轮廓序列按最大后验概率策略选出模型后验概率最大的视角,作为各人体步态轮廓序列的估计视角,待识别人体步态轮廓序列的提取过程与步骤一(1)相同;(2)根据原型集里各个人体步态轮廓序列以及步骤一获得的各人体步态轮廓序列的估计视角下的多状态模型,对各人体步态轮廓序列提取出各人体步态轮廓序列的估计视角下的各状态的表象期望值,各状态的表象期望值的提取过程与步骤一(5)相同;(3)根据步骤二(2)提取出的原型集里每一个人的一个或多个视角、一个或多个状态的表象期望值,以及步骤一(5)中获得的表象期望值、视角、状态、身份之间的投影关系计算出原型集中所有人的身份向量,身份向量的计算过程是将原型集中每一个人的一个或多个视角、一个或多个状态的表象期望值形成一个待识别张量P,将其向第4维度身份维度上展开得到与P数据量相同、维度组合不同的中间变量P<sub>4</sub>,用C<sub>stance</sub>只含有1和0的单位向量组成的矩阵表示此人现有的所有状态,用C<sub>view</sub>只含有1和0的单位向量组成的矩阵表示此人现有的所有视角;将<img file="FDA0000087290870000022.GIF" wi="731" he="62" />在第4维度上求逆,再乘上中间变量P<sub>4</sub>得到身份向量<img file="FDA0000087290870000023.GIF" wi="133" he="57" /><maths num="0002"><![CDATA[<math><mrow><msub><mover><mi>u</mi><mo>^</mo></mover><mi>person</mi></msub><mo>=</mo><msub><mi>P</mi><mn>4</mn></msub><msub><mo>&times;</mo><mn>1</mn></msub><msup><mrow><mo>(</mo><mi>S</mi><msub><mo>&times;</mo><mn>1</mn></msub><msub><mi>U</mi><mi>feature</mi></msub><msub><mo>&times;</mo><mn>2</mn></msub><msubsup><mi>C</mi><mrow><mi>s</mi><mi>tan</mi><mi>ce</mi></mrow><mi>T</mi></msubsup><msub><mi>U</mi><mrow><mi>s</mi><mi>tan</mi><mi>ce</mi></mrow></msub><msub><mo>&times;</mo><mn>3</mn></msub><msubsup><mi>C</mi><mi>view</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>view</mi></msub><mo>)</mo></mrow><msub><mo>+</mo><mn>4</mn></msub></msup><mo>;</mo></mrow></math>]]></maths>步骤三:对测试集里多个人的一段或多段的人体步态轮廓序列进行视角估计,将提取的步态特征输入到步骤一训练得到的多视角下的多状态模型,从训练集中的表象期望值、视角、状态、身份之间的投影关系获得身份信息,与原型集里已有的所有身份向量进行比对,得到是原型集中的哪一个人;(1)从测试集里每一个人的所有行走视频中提取出一个或多个待识别人体步态轮廓序列,由步骤一获得的训练集中的各个视角的多状态模型计算后验概率,对于每个人体步态轮廓序列按最大后验概率策略选出模型后验概率最大的视角,作为各人体步态轮廓序列的估计视角,待识别人体步态轮廓序列的提取过程与步骤一(1)相同,视角估计过程与步骤二(1)相同;(2)根据测试集里各个人体步态轮廓序列以及步骤一获得的各序列的估计视角下的多状态模型,对各人体步态轮廓序列提取出各序列的估计视角下的该状态的表象期望值,各状态的表象期望值的提取过程与步骤一(5)相同;(3)根据步骤三(2)提取出的测试集里每一个人的一个或多个视角、一个或多个状态的表象期望值,与步骤一(4)中获得的表象期望值、视角、状态、身份之间的投影关系计算出测试集中的身份向量:将测试集中每一个行人的一个或多个视角、一个或多个状态的表象期望值堆砌成一个待识别张量Q,将其向第4维度身份维度上展开得到与M数据量相同、维度组合方式不同的中间变量Q<sub>4</sub>;用D<sub>stance</sub>只含有1和0的单位向量组成的矩阵表示此人现有的所有状态;D<sub>view</sub>只含有1和0的单位向量组成的矩阵表示此人现有的所有视角;D<sub>view</sub>和D<sub>stance</sub>的组成与步骤二(2)中的C<sub>view</sub>和C<sub>stance</sub>相同;将<img file="FDA0000087290870000031.GIF" wi="737" he="61" />在第4维度上求逆,再乘上Q<sub>4</sub>求得身份向量<img file="FDA0000087290870000032.GIF" wi="128" he="61" /><maths num="0003"><![CDATA[<math><mrow><msub><mover><mi>v</mi><mo>^</mo></mover><mi>person</mi></msub><mo>=</mo><msub><mi>Q</mi><mn>4</mn></msub><msub><mo>&times;</mo><mn>1</mn></msub><msup><mrow><mo>(</mo><mi>S</mi><msub><mo>&times;</mo><mn>1</mn></msub><msub><mi>U</mi><mi>feature</mi></msub><msub><mo>&times;</mo><mn>2</mn></msub><msubsup><mi>D</mi><mrow><mi>s</mi><mi>tan</mi><mi>ce</mi></mrow><mi>T</mi></msubsup><msub><mi>U</mi><mrow><mi>s</mi><mi>tan</mi><mi>ce</mi></mrow></msub><msub><mo>&times;</mo><mn>3</mn></msub><msubsup><mi>D</mi><mi>view</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>view</mi></msub><mo>)</mo></mrow><msub><mo>+</mo><mn>4</mn></msub></msup></mrow></math>]]></maths>对测试集的每一个人,将得到的身份向量与原型集的所有身份向量计算欧式距离,并用最近邻法在原型集里找出最佳匹配项,若与最佳匹配项的距离大于阈值,则视为在原型集里没有此人,否则将找到的最佳匹配项作为最终识别结果,身份向量的计算过程与步骤二(3)相同,得到了测试集的所有人的身份向量,若此人已被包含在原型集则给出最佳匹配项,否则在原型集里没有此人的记录。
地址 100191 北京市海淀区学院路37号