发明名称 基于环路图模型的视频异常检测方法
摘要 本发明公开了一种基于LDA‑HMM的环路图模型视频异常检测方法。现有的方法在HMM状态确定LDA主题特征的概率推理中,视频异常检测会受到概率拖尾问题和模型过度拟合或欠拟合问题的困扰。本发明首先选取正常场景的视频段作为训练数据,经过低层特征提取,LDA主题特征提取,通过环路模型参数推理,训练出一个LDA‑HMM环路模型。异常检测时,将正常场景视频段和含异常事件视频段数据处理后分布送入已训练好的环路模型中,根据前向算法,得到每一帧的似然函数,当似然函数差大于某一阈值时,判断该帧出现异常。本发明很好地解决了概率拖尾及模型阶数需人为设定的问题,使视频异常检测达到更加精确的效果。
申请公布号 CN103530603B 申请公布日期 2017.01.04
申请号 CN201310439344.8 申请日期 2013.09.24
申请人 杭州电子科技大学 发明人 郭春生;徐俊;沈佳;张凤金
分类号 G06K9/00(2006.01)I;G06K9/46(2006.01)I;G06F17/30(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人 杜军
主权项 基于环路图模型的视频异常检测方法,其特征在于该方法的具体步骤是:步骤1.底层特征提取:对已录制的视频,采用SIFT算法对每一帧图像抽取二维图像位置信息特征,得到若干个特征点的128维方向参数,将这些特征点聚类,构建BOW词袋的形式;步骤2.将视频帧序列的BOW词袋作为词袋D,通过LDA模型进行主题语义特征的提取,获取得到表示每帧图像主题特征的主题特征矩阵γ;步骤3.将主题特征矩阵γ作为环路HMM‑LDA模型的观测量进行环路HMM‑LDA的上一部分的参数推理,通过引入辅助变量u,使得潜在状态轨迹中的状态数量为一有限值,利用动态规划的方法计算状态轨迹的条件概率并对整个轨迹进行采样;采样u:在已知状态转移概率矩阵π、t‑1和t时刻的轨迹状态s<sub>t‑1</sub>、s<sub>t</sub>情况下,u<sub>t</sub>服从条件分布<img file="FDA0001040488300000014.GIF" wi="451" he="71" />采样s:s<sub>t</sub>的后验概率为:<maths num="0001"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>s</mi><mi>t</mi></msub><mo>|</mo><msub><mi>z</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn><mo>:</mo><mi>t</mi></mrow></msub><mo>,</mo><msub><mi>u</mi><mrow><mn>1</mn><mo>:</mo><mi>t</mi></mrow></msub></mrow><mo>)</mo></mrow><mo>&Proportional;</mo><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>s</mi><mi>t</mi></msub><mo>,</mo><msub><mi>u</mi><mi>t</mi></msub><mo>,</mo><msub><mi>z</mi><mrow><mi>n</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>|</mo><msub><mi>z</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn><mo>:</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>u</mi><mrow><mn>1</mn><mo>:</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><msub><mi>&Sigma;</mi><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></msub><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>z</mi><mrow><mi>n</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>|</mo><msub><mi>s</mi><mi>t</mi></msub></mrow><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mi>t</mi></msub><mo>|</mo><msub><mi>s</mi><mi>t</mi></msub><mo>,</mo><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>s</mi><mi>t</mi></msub><mo>|</mo><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>|</mo><msub><mi>z</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn><mo>:</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>u</mi><mrow><mn>1</mn><mo>:</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>z</mi><mrow><mi>n</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>|</mo><msub><mi>s</mi><mi>t</mi></msub></mrow><mo>)</mo></mrow><msub><mi>&Sigma;</mi><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></msub><mi>I</mi><mi>I</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mi>t</mi></msub><mo>&lt;</mo><msub><mi>&pi;</mi><mrow><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>s</mi><mi>t</mi></msub></mrow></msub></mrow><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>|</mo><msub><mi>z</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn><mo>:</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>u</mi><mrow><mn>1</mn><mo>:</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>z</mi><mrow><mi>n</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>|</mo><msub><mi>s</mi><mi>t</mi></msub></mrow><mo>)</mo></mrow><msub><mi>&Sigma;</mi><mrow><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn><mo>:</mo></mrow></msub><msub><mi>u</mi><mi>t</mi></msub><mo>&lt;</mo><msub><mi>&pi;</mi><mrow><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>s</mi><mi>t</mi></msub></mrow></msub></mrow></msub><mi>p</mi><mrow><mo>(</mo><mrow><msub><mi>s</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>|</mo><msub><mi>z</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn><mo>:</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>u</mi><mrow><mn>1</mn><mo>:</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0001040488300000011.GIF" wi="1608" he="431" /></maths>其中z<sub>n,t</sub>表示t时刻的观测量,n为设定的观测个数,ΙΙ(C)表示如果满足条件C则ΙΙ(C)=1,否则ΙΙ(C)=0;采样π:令m<sub>ij</sub>表示从状态i转移到状态j的次数,s中不同状态的数目为K,这些状态被标记为1,2…,K,将s中所有未出现的无限多个状态融合在一起,则π<sub>k</sub>可表示为<img file="FDA0001040488300000012.GIF" wi="712" he="78" />在给定轨迹状态s,共享DP基础测量β和精度测量α下,其后验分布为:<maths num="0002"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>&pi;</mi><mi>k</mi></msub><mo>|</mo><mi>S</mi><mo>,</mo><mi>&beta;</mi><mo>,</mo><mi>&alpha;</mi><mo>)</mo></mrow><mo>&Proportional;</mo><mi>D</mi><mi>i</mi><mi>r</mi><mi>i</mi><mi>c</mi><mi>h</mi><mi>l</mi><mi>e</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>n</mi><mrow><mi>k</mi><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>&alpha;&beta;</mi><mn>1</mn></msub><mo>+</mo><msub><mi>n</mi><mrow><mi>k</mi><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>&alpha;&beta;</mi><mn>2</mn></msub><mo>+</mo><mo>...</mo><mo>+</mo><msub><mi>n</mi><mrow><mi>k</mi><mi>K</mi></mrow></msub><mo>+</mo><msub><mi>&alpha;&beta;</mi><mi>K</mi></msub><mo>,</mo><msubsup><mi>&alpha;&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mi>K</mi><mo>+</mo><mn>1</mn></mrow><mi>&infin;</mi></msubsup><msub><mi>&beta;</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001040488300000013.GIF" wi="1540" he="78" /></maths>采样α:假设α服从参数为a和b的Gamma分布,则其后验概率分布为:<maths num="0003"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>&alpha;</mi><mo>|</mo><mi>&omega;</mi><mo>,</mo><mi>v</mi><mo>)</mo></mrow><mo>&Proportional;</mo><msup><mi>&alpha;</mi><mrow><mi>a</mi><mo>-</mo><mn>1</mn><mo>+</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></msubsup><msub><mi>m</mi><mi>j</mi></msub><mo>-</mo><msub><mi>v</mi><mi>j</mi></msub></mrow></msup><msup><mi>e</mi><mrow><mo>-</mo><mi>&alpha;</mi><mrow><mo>(</mo><mi>b</mi><mo>-</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></msubsup><msub><mi>log&omega;</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></msup></mrow>]]></math><img file="FDA0001040488300000021.GIF" wi="790" he="94" /></maths>其中<img file="FDA0001040488300000022.GIF" wi="227" he="77" />和<img file="FDA0001040488300000023.GIF" wi="209" he="71" />为辅助变量,ω<sub>j</sub>在[0,1]内取值,v<sub>j</sub>是一二进制{0,1}变量;采样θ:每一项θ<sub>m</sub>关于s,z及它们的先验分布H条件独立服从分布:p(θ|s,z,H)=∏<sub>k</sub>p(θ<sub>m</sub>|s,z,H)由于基分布Dir(α)和数据分布F多项式分布为共轭分布,每一个θ<sub>m</sub>可以迅速的采集到;步骤4.选取新的视频段序列重复步骤1,得到新的BOW词袋,将步骤3采样得到的α作为LDA模型的超先验参数,进行环路HMM‑LDA下一部分的参数推理;在给定词袋D={Y<sub>1</sub>,...,Y<sub>M</sub>}条件下,参数推理的目的是为了获得数据对数似然函数<img file="FDA0001040488300000024.GIF" wi="548" he="127" />最大化的参数作为α和φ的估计值,首先引入变分参数γ和<img file="FDA00010404883000000211.GIF" wi="68" he="47" />将寻找对数下限的问题转化成下面的优化问题:<img file="FDA0001040488300000025.GIF" wi="1110" he="103" />其中z表示主题,y表示词汇,θ表示主题‑文档分布矩阵,然后将变分分布<img file="FDA0001040488300000026.GIF" wi="278" he="62" />和真实分布p(θ,z<sub>n,t</sub>|y<sub>n,t</sub>,α,φ)之间的Kullback‑Leibler散度最小化得到最佳的变分参数值<img file="FDA0001040488300000027.GIF" wi="53" he="69" />和<img file="FDA0001040488300000028.GIF" wi="86" he="70" />计算KL散度的导数并设置为0,得到一组更新方程:<img file="FDA0001040488300000029.GIF" wi="712" he="86" /><maths num="0004"><math><![CDATA[<mrow><msub><mi>&gamma;</mi><mi>i</mi></msub><mo>=</mo><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>+</mo><msubsup><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msub><mi>&phi;</mi><mrow><mi>n</mi><mi>i</mi></mrow></msub></mrow>]]></math><img file="FDA00010404883000000210.GIF" wi="340" he="87" /></maths>运用EM算法,进行反复迭代,直到超先验参数α和β收敛,求出此时α和β的值,根据θ~Dir(α),可以继而推导出参数θ;步骤5.将环路HMM‑LDA关联树上的参数进行树重加权处理,把环路模型分解为iHMM结构和LDA结构的两个无环生成树,由步骤3、步骤4的参数推理过程,可以得到α<sub>ihmm</sub>,θ<sub>ihmm</sub>和α<sub>lda</sub>,θ<sub>lda</sub>,环路模型的参数可以表示为:α=λ<sub>ihmm</sub>α<sub>ihmm</sub>+λ<sub>lda</sub>α<sub>lda</sub>θ=μ<sub>ihmm</sub>θ<sub>ihmm</sub>+μ<sub>lda</sub>θ<sub>lda</sub>其中λ<sub>ihmm</sub>,μ<sub>ihmm</sub>和λ<sub>lda</sub>,μ<sub>lda</sub>分别为iHMM和LDA树结构参数α和θ的权值,取最理想的加权状态,令两个树的参数的加权值都为0.5,完成建模;步骤6.异常检测,将正常场景的视频段和含有异常事件的视频段分别进行步骤1和步骤2,得到的语义特征作为已训练好的环路HMM‑LDA模型的输入值,根据前向算法,计算得到两视频段每一帧的似然函数,将两似然函数作差并设置一个阈值,绝对值大于阈值时设定为异常事件,小于等于阈值时设定为正常事件。
地址 310018 浙江省杭州市下沙高教园区2号大街