发明名称 一种基于深度信息的ATM自助营业厅行为分析方法
摘要 本发明涉及一种基于深度信息的ATM自助营业厅行为分析方法。现有技术是基于普通二维摄像头的行为分析,存在目标无法准确定位的情况。本发明首先采用双目相机作为深度信息的获取设备,对深度图进行背景建模,学更新每个像素的混合高斯模型,确定背景分布。其次对每帧新深度图中的每个像素,求其概率值,对前景深度图,利用DENCLUE算法进行聚类分割。最后对每个相机中的每个人体区域中的像素,进行到地面上的投影,利用多相机偏移标定,进行投影后目标的关联,从而在全局坐标系上实现多相机下的目标检测。本发明使用了深度信息,并结合RGB信息的背景建模,使得目标检测的稳定性大为提高,为后续行为分析提供了良好的基础。
申请公布号 CN104268851A 申请公布日期 2015.01.07
申请号 CN201410452648.2 申请日期 2014.09.05
申请人 浙江捷尚视觉科技股份有限公司 发明人 尚凌辉;高勇;王弘玥;刘家佳;余天明;施展
分类号 G06T7/00(2006.01)I;G06T7/20(2006.01)I;H04N7/18(2006.01)I 主分类号 G06T7/00(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 杜军
主权项 一种基于深度信息的ATM自助营业厅行为分析方法,以多个吸顶安装、垂直朝地面拍摄的双目相机为采集硬件,在深度信息和彩色信息的基础上,采用了背景建模,目标分割,运动分析,实现对监控区域内人体行为的分析,其特征在于该方法具体包括以下步骤:步骤1:采用双目相机作为深度信息的获取设备,输出为帧率25FPS的CIF分辨率的深度图,深度图中,每个像素的取值范围为0‑255,值越大表示该像素所代表的目标距离镜头越近;步骤2:对深度图进行背景建模,并随着场景的变化,学习更新每个像素的混合高斯模型,确定背景分布,具体是:首先对深度图进行背景建模,用由K个高斯成分组成的混合高斯模型表示像素在时间域上的概率分布模型,即深度图中像素j在t时刻取值为x<sub>j</sub>的概率为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msubsup><mi>&omega;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>&CenterDot;</mo><mi>&eta;</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>;</mo><msubsup><mi>&mu;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>,</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000566260340000011.GIF" wi="846" he="172" /></maths>其中<img file="FDA0000566260340000012.GIF" wi="85" he="82" />表示在t时刻像素j的混合高斯模型中的第i个高斯成分的权重,<img file="FDA0000566260340000015.GIF" wi="118" he="80" />表示第i个高斯成分的均值,<img file="FDA0000566260340000013.GIF" wi="117" he="85" />表示第i个高斯成分的协方差,η表示高斯概率密度函数:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>&eta;</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>;</mo><msubsup><mi>&mu;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>,</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mi>d</mi><mo>/</mo><mn>2</mn></mrow></msup><msup><mrow><mo>|</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mo>[</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>-</mo><msubsup><mi>&mu;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>)</mo></mrow><mi>T</mi></msup><msup><mrow><mo>(</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>-</mo><msubsup><mi>&mu;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>)</mo></mrow><mo>]</mo></mrow>]]></math><img file="FDA0000566260340000014.GIF" wi="1743" he="247" /></maths>其中d为x<sub>j</sub>的维数;然后随着场景的变化,学习更新每个像素的混合高斯模型;最后像素j的混合高斯模型描述了其特征值x<sub>j</sub>在时间域上的概率分布,为了确定像素的混合高斯模型里哪些高斯成分是由背景产生的,根据每个高斯成分的权重与其标准差之比排序后,取前B<sub>j</sub>个高斯成分作为背景的分布,B<sub>j</sub>根据下式计算<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>B</mi><mi>j</mi></msub><mo>=</mo><mi>arg</mi><msub><mi>min</mi><mi>b</mi></msub><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>b</mi></munderover><msubsup><mi>&omega;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi><mo>+</mo><mn>1</mn></mrow><mi>i</mi></msubsup><mo>></mo><mi>M</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000566260340000021.GIF" wi="590" he="146" /></maths>阈值M度量了背景高斯成分在像素的整个概率分布中所占得最小比例;步骤3:利用深度图背景模型,进行前景目标检测,即对每帧新深度图中的每个像素,求其在每个背景混合高斯模型中的概率值:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msubsup><mi>&omega;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>&CenterDot;</mo><mi>&eta;</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>;</mo><msubsup><mi>&mu;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>,</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>,</mo><mi>t</mi></mrow><mi>i</mi></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000566260340000022.GIF" wi="658" he="147" /></maths>若概率最大值小于阈值,则认为当前像素为前景点,说明可能有人体;步骤4:对前景深度图,利用DENCLUE算法进行聚类分割,将原本联通的深度图分割成若干个区域,每个区域代表一个目标;步骤5:对每个相机中的每个人体区域中的像素,利用其深度信息进行到地面上的投影,然后利用多相机偏移标定,进行投影后目标的关联,从而在全局坐标系上实现多相机下的目标检测;步骤6:对于每个相机每帧深度图,重复步骤2‑5的处理,每帧都会得到一组全局坐标系下的目标检测结果,再利用光流预测和面积匹配的方法进行帧间关联,从而得到每个目标在全局坐标系的跟踪轨迹;步骤7:结合ATM区域和跟踪轨迹,实现“取款尾随”、“徘徊”或“驻留”的行为分析;步骤8:对每个目标进行光流场的计算,评价其光流场的混乱程度和速度,实现“打斗”和“打砸ATM”的行为分析;步骤9:对每个目标的历史高度进行统计,形成以时间为x轴,以高度为y轴的波形,在对其进行滤波后,检测波形中是否存在一个下降沿,实现对“倒地”的行为分析。
地址 311121 浙江省杭州市余杭区五常街道文一西路998号7幢东楼