发明名称 一种基于CUDA的全景视频监控系统
摘要 一种基于CUDA的全景视频监控系统,首先,利用相位相关法估计多个视频图像间的重叠区域,在重叠区域内提取SURF特征点并进行配准,这样做缩短了算法时间,也减少了后续的误匹配;然后,本发明提出了基于改进的最佳融合线与多分辨率算法相结合的融合算法,消除了边缘跳变和鬼影现象,改善了视频的视觉效果;最后在融合阶段利用了GPU加速,进一步提高了拼接速度。实验结果表明,该方法能够有效的实现3路监控视频的实时拼接,帧率达到20帧,相比于传统CPU版本更能能够满足视频拼接的实时要求。
申请公布号 CN105245841A 申请公布日期 2016.01.13
申请号 CN201510647067.9 申请日期 2015.10.08
申请人 北京工业大学 发明人 陶荷梦;禹晶;肖创柏;段娟
分类号 H04N7/18(2006.01)I 主分类号 H04N7/18(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 沈波
主权项 一种基于CUDA的全景视频监控系统,其特征在于:用三个相同的网络摄像头在同一水平面采集不同角度不同方位的视频图像,同步抓取各个摄像头的首帧图像,从左到右为采集相邻三路视频帧图像I<sub>1</sub>(x,y),I<sub>2</sub>(x,y)和I<sub>3</sub>(x,y);首先,利用傅里叶变换计算出视频图像之间的平移位置关系(Δx,Δy),通过平移参数(Δx,Δy)能够近似计算出视频图像之间的重叠区域;利用SURF算法原理,使用盒子滤波和积分图像为图像构建尺度空间金字塔,通过改变盒子滤波器的大小,用不同大小的滤波器在原始图像的x、y和xy三个不同方向上做卷积,即可形成多尺度空间函数D<sub>xx</sub>,D<sub>yy</sub>,D<sub>xy</sub>;选择6的倍数作为基本尺度间隔,下一层的尺度间隔每次都会翻倍;构建完尺度空间金字塔后,需要对提取局部极值点;利用一个非常逼近det(H)的表达式Δ(H)来判断,若Δ(H)的值为正,则能够确定该点为局部极值点;得到局部极值点后,对它们在3×3×3的领域内进行非最大值抑制,把符合条件的点选为特征点;在特征点检测之后,为保证特征点具有旋转和尺度不变性,用Haar小波对特征点分配主方向;在特征点周围60度的圆形邻域内(灰色区域),计算尺寸为4σ的Haar小波响应,其中σ是特征点所在的尺度;然后将响应以dx和dy建立坐标系,将各响应点映射到该坐标系并进行累加;最后将获得最大响应的方向定义为主方向;以特征点为中心将坐标轴旋转到主方向,选取边长为20σ的正方形窗口,将这个窗口划分成4×4个子窗口;对于边长为5σ的子窗口区域,以采样间隔为σ,分别计算每个子窗口水平和垂直方向上的小波响应,得到的小波系数记为dx和dy;然后对响应系数求和得∑dx和∑dy,求响应系数绝对值之和得到∑|dx|和∑|dy|每个子窗口得到一个4维向量(∑dx,∑dy,∑|dx|,∑|dy|),特征点描述符由周围所有子窗口的向量构成,因此特征向量长度为4×4×4=64;由此得到的描述符对旋转、尺度、亮度以及对比对都具有较好的鲁棒性;在检测到SURF特征之后由于两幅图像的重叠区域是相似的,寻找SURF特征点的匹配点时,把搜索区域限制在对应平移位置的一个邻域内;这个邻域可以为半径32的一个圆形区域;只需要在这个圆形区域里寻找匹配的特征点;这样能够减少需要进行比较的特征点数量,提高了算法速度;首先对图像I<sub>1</sub>(x,y)的样本特征点P<sub>1</sub>,在I<sub>2</sub>(x,y)中对应重叠区域半径32的圆域内寻找与它距离最近特征点P<sub>12</sub>和次近特征点P<sub>12</sub>′,然后计算这两个特征点与样本点之间欧式距离的比值;对于比值小于阈值N的特征点,则认为是正确匹配的特征点,否则是错误匹配的特征点;同理,对图像I<sub>3</sub>(x,y)的样本特征点P<sub>3</sub>,在I<sub>2</sub>(x,y)中对应重叠区域半径32的圆域内寻找最近邻特征点P<sub>32</sub>和次近邻特征点P<sub>32</sub>′,然后计算欧式距离的比值来判断匹配点;通过最近邻匹配,这样就得到相邻两幅图像一系列的匹配点对,但由于算法的局限性,这些特征点得集合中难免有许多误匹配点,同时特征点提取的精度也存在一定的误差,这样就会影响拼接的质量和效率,因此采用RANSAC算法来提纯特征点并且求取变换矩阵;RANSAC算法的基本思想为:对于某个数据集合,首先随机选取两个点确定出一条直线;然后对该直线设定一个容许误差阈值,把处在阈值范围内的点判定为直线的内点集合;不断迭代这一随机采样过程,直至内点的数目最大且不再改变,那么此时确定的内点集合为最大内点集合;视频图像配准完成之后,下一步就是对图像进行融合;采用基于最佳缝合线的多分辨率融合法;首先需要求得视频图像重叠区域的最佳缝合线,求得缝合线后,获得图像的高斯金字塔表示,然后通过高斯金字塔获得图像的拉普拉斯金字塔表示,接着在各层拉普拉斯金字塔上在重叠区域的缝合线周围构建一个过渡融合带,按照加权平均将各层图像融合在一起,之后通过扩展每层金字塔,并累加每层扩展后的图像获得最终的拼接图像;由于拼接算法的耗时,不能满足实时性要求;算法阶段的优化基本已经达到极致,本发明从编程模型出发,利用多线程原理和GPU编程模型,对图像融合阶段进行GPU优化,实现了实时全景视频拼接系统,拼接效果完好,画面流畅。
地址 100124 北京市朝阳区平乐园100号