发明名称 基于拉普拉斯正则组稀疏的人体行为识别方法
摘要 本发明公开一种基于拉普拉斯正则组稀疏的人体行为识别方法,主要用于解决现有技术中对特征的编码方法中没有考虑视频内部结构信息且计算效率较低的问题。其实现步骤为:(1)输入人体行为视频序列;(2)提取初级特征;(3)构建初始字典和相似度矩阵;(4)编码初级特征;(5)分类;(6)输出检测结果。本发明在组稀疏编码的基础上,加入了人体行为视频序列内部的结构信息,增强了人体行为视频序列编码的判别性,提高了分类精度,使得对人体行为的识别更加准确。
申请公布号 CN103605952B 申请公布日期 2016.11.23
申请号 CN201310517792.5 申请日期 2013.10.27
申请人 西安电子科技大学 发明人 张向荣;焦李成;贾航华;杨浩;杨淑媛;李阳阳;马文萍;马晶晶
分类号 G06K9/00(2006.01)I;G06K9/66(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 田文英;王品华
主权项 一种基于拉普拉斯正则组稀疏的人体行为识别方法,包括以下步骤:(1)输入人体行为视频序列;(2)提取初级特征:2a)采用空时角点检测方法,提取人体行为视频序列兴趣点;所述空时角点检测方法的具体步骤为:第1步,计算人体行为视频序列中图像像素点在水平方向,垂直方向和时间方向的梯度,得到矩阵Q:<img file="FDA0001066166430000011.GIF" wi="475" he="231" />其中,Q表示矩阵,I<sub>x</sub>表示人体行为视频序列中图像像素点在水平方向的梯度,I<sub>y</sub>表示人体行为视频序列中图像像素点在垂直方向的梯度,I<sub>t</sub>表示人体行为视频序列中图像像素点在时间方向的梯度;第2步,对矩阵Q进行高斯滤波,得到滤波后的矩阵U:<img file="FDA0001066166430000012.GIF" wi="846" he="231" /><img file="FDA0001066166430000013.GIF" wi="1118" he="183" />其中,U表示滤波后的矩阵,g(x,y,t;σ<sup>2</sup>,τ<sup>2</sup>)表示用来对矩阵Q进行滤波的空时高斯函数,x,y,t分别表示图像像素点的位置坐标,<img file="FDA0001066166430000014.GIF" wi="44" he="47" />表示卷积,σ表示空域尺度,τ表示时域尺度;第3步,计算人体行为视频序列中图像像素点的兴趣值R:R=det(U)‑ktr<sup>3</sup>(U)其中,R表示人体行为视频序列中图像像素点的兴趣值,det(U)表示滤波后矩阵U的行列式,k表示平衡因子,k的取值是0.04,tr(U)表示滤波后矩阵U的迹;第4步,设定一个阈值T=0.03:第5步,将大于阈值T的兴趣值的像素点,作为人体行为视频序列中的兴趣点;2b)根据兴趣点,提取人体行为视频序列的初级特征;(3)构建初始字典和相似度矩阵:3a)根据人体行为视频序列的初级特征,构建初始字典;3b)根据人体行为视频序列的初级特征,构建相似度矩阵;(4)编码初级特征:4a)对人体行为视频序列中,每个视频的初级特征进行拉普拉斯正则的组稀疏编码的目标函数如下:<img file="FDA0001066166430000021.GIF" wi="1078" he="157" />其中,B表示编码系数矩阵,y<sub>i</sub>表示人体行为视频序列中每个视频的初级特征中第i个特征向量,M表示人体行为视频序列中每个视频的初级特征中特征向量的个数,<img file="FDA0001066166430000022.GIF" wi="54" he="70" />表示编码系数矩阵B的第j行第i列元素,d<sub>j</sub>表示初始字典D<sub>0</sub>的第j列,||·||<sub>2</sub><sup>2</sup>表示2‑范数的平方和,λ和μ分别表示平衡编码稀疏矩阵稀疏性和拉普拉斯约束的正则参数,取值范围是0~1,||·||<sub>p</sub>表示p范数,tr(BLB<sup>T</sup>)表示矩阵BLB<sup>T</sup>的迹,L表示人体行为视频序列中每个视频的拉普拉斯矩阵;4b)使用坐标下降的方法,对目标函数进行求解,得到人体行为视频序列中每个视频的初级特征的编码系数矩阵:<img file="FDA0001066166430000023.GIF" wi="844" he="93" />其中,B表示N行M列的编码系数矩阵,N表示初始字典原子的个数,M表 示人体行为视频序列中每个视频的初级特征中特征向量的个数;β<sub>j</sub><sup>T</sup>表示编码系数矩阵B的第j行,j表示编码系数矩阵的行坐标,b<sub>i</sub>表示编码系数矩阵B的第i列,i表示编码系数矩阵B的列坐标;4c)对编码系数矩阵B的每一行求2‑范数,得到人体行为视频序列中每个视频的高级特征Z:Z=[z<sub>1</sub>,...z<sub>k</sub>,...,z<sub>N</sub>]<sup>T</sup>其中,Z表示人体行为视频序列中每个视频的高级特征,z<sub>k</sub>表示人体行为视频序列中每个视频的高级特征Z的第k个元素,z<sub>k</sub>=||B<sub>k</sub>||<sub>2</sub>,||B<sub>k</sub>||<sub>2</sub>表示对编码系数矩阵B的第k行求2‑范数,k=1,2,...,N,N表示人体行为视频序列中每个视频的高级特征的维数;(5)分类:5a)将每一个动作者的人体行为视频的所有高级特征分别作为测试集,其他动作者的人体行为视频的高级特征作为训练集,利用训练集中的所有样本组成N行m列的字典H=[H<sub>1</sub>,...,H<sub>j</sub>,...,H<sub>c</sub>],H<sub>j</sub>表示第j类的字典原子,j表示字典的类别标号,j=1,2,...,c,c表示总类别数,N表示人体行为视频序列中每个视频的高级特征的维数,m表示字典H所有原子个数;5b)按照下式,计算每个测试样本的稀疏编码系数向量:<img file="FDA0001066166430000031.GIF" wi="437" he="86" />其中,<img file="FDA0001066166430000032.GIF" wi="38" he="62" />表示测试集中的测试样本,H是训练集中的所有样本组成的字典,θ表示稀疏编码系数向量,||·||<sub>2</sub><sup>2</sup>表示2‑范数的平方和,||·||<sub>1</sub>表示向量的l<sub>1</sub>范数,η表示平衡重建误差和编码稀疏性的正则参数,取值范围是0~1;5c)按照下式,计算测试样本在每类字典上的残差:<img file="FDA0001066166430000033.GIF" wi="508" he="102" />其中:<img file="FDA0001066166430000034.GIF" wi="109" he="70" />表示测试样本在每类字典上的残差,<img file="FDA0001066166430000035.GIF" wi="37" he="62" />表示测试集中的测试样本, θ<sub>j</sub>表示测试样本在第j类字典H<sub>j</sub>上的编码系数向量;5d)将最小残差所对应的字典类标赋给测试样本<img file="FDA0001066166430000041.GIF" wi="59" he="55" />得到测试样本的类标;(6)输出检测结果。
地址 710071 陕西省西安市太白南路2号