发明名称 动态前景分离的大幅面视频拼接方法
摘要 动态前景分离的大幅面视频拼接方法,涉及视频拼接、全景视频领域。该方法是采用多台位置和拍摄角相对固定且相同的摄像机拍摄获取视频数据,再由计算机系统按顺序读入这些视频序列,并对这些视频序列依次进行几何校正、前景提取,然后分别对前景和背景视频序列进行匹配和变换,得到拼接后的前景和背景视频,最后将拼接后的前景和背景视频融合得到最终的视频拼接结果。在本发明中所使用的摄像机的摆放位置可根据拍摄环境而调整,摄像机的数目可为2个或2个以上。本发明所提供的方法通过分离前景并在重叠区域重新选择将要保留的单方数据,从而避免了鬼影的产生。实验证明该方法既保证了视频的质量同时也提高了拼接算法的速度。
申请公布号 CN101621634A 申请公布日期 2010.01.06
申请号 CN200910089841.3 申请日期 2009.07.24
申请人 北京工业大学 发明人 贾克斌;张媛
分类号 H04N5/262(2006.01)I;G06T5/00(2006.01)I 主分类号 H04N5/262(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 代理人 张 慧
主权项 1、动态前景分离的大幅面视频拼接方法,是采用多台相同且拍摄角度固定的摄像机获取视频数据,再由计算机系统按顺序读入这些视频序列,并对这些视频序列依次进行几何校正、前景提取,然后分别对前景和背景视频序列进行匹配和变换,得到拼接后的前景和背景视频,最后将拼接后的前景和背景视频融合得到最终的视频拼接结果,其特征在于具体包括如下步骤:(1)采用多台相同的摄像机拍摄获取视频数据,相邻摄像机的拍摄区域相互重叠,且相对位置和拍摄角度保持不变;(2)计算机程序依自左到右的视场顺序从摄像机读入视频序列;(3)依据摄像机的焦距对视频进行几何校正;假设没有畸变的图像由函数f<sub>u</sub>(x<sub>u</sub>,y<sub>u</sub>)表示,有畸变的图像由函数f<sub>d</sub>(x<sub>d</sub>,y<sub>d</sub>)表示;则两函数之间的关系可以由以下两式表示:x<sub>d</sub>=x<sub>u</sub>(1+k<sub>1</sub>r<sup>2</sup>)y<sub>d</sub>=y<sub>u</sub>(1+k<sub>2</sub>r<sup>2</sup>)其中,r<sup>2</sup>=x<sub>u</sub><sup>2</sup>+y<sub>u</sub><sup>2</sup>,k<sub>1</sub>,k<sub>2</sub>为控制图像畸变程度的系数;(4)利用平均法建立视频的静态背景,其方法如下:<maths num="0001"><![CDATA[<math><mrow><msub><mover><mi>I</mi><mo>&OverBar;</mo></mover><mi>B</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>I</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></math>]]></maths>其中,I<sub>B</sub>(x,y)为最终求得的背景图像,I<sub>i</sub>(x,y)为视频帧图像,N为视频帧数;(5)利用背景减除法提取前景,依据背景帧的平均灰度值I<sub>B</sub>,设定两个自适应的阈值k<sub>1</sub>,k<sub>2</sub>:k<sub>1</sub>=k<sub>2</sub>/I<sub>B</sub>k<sub>2</sub>=0.2*(I<sub>B</sub>-20)+10对视频的每帧图像I<sub>i</sub>(x,y)求其中的每个像素所对应的差值g<sub>1</sub>,g<sub>2</sub>值,<maths num="0002"><![CDATA[<math><mrow><msub><mi>g</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mo>|</mo><mfrac><msub><mover><mi>I</mi><mo>&OverBar;</mo></mover><mi>B</mi></msub><msub><mover><mi>I</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub></mfrac><mfrac><mrow><msub><mi>I</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>I</mi><mi>B</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mn>1</mn><mo>|</mo></mrow></math>]]></maths>g<sub>2</sub>(x,y)=|I<sub>i</sub>(x,y)-I<sub>B</sub>(x,y)|对于g<sub>1</sub>>k<sub>1</sub>或g<sub>2</sub>>k<sub>2</sub>者,在前景二值图像中标注为1,其他点为0,由此得到前景二值图像;经图像形态学方法处理后,寻找连通区域并求取运动物体中心Centre:<maths num="0003"><![CDATA[<math><mrow><mi>Centre</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mi>M</mi></munderover><msub><mi>x</mi><mi>i</mi></msub></mrow><mi>M</mi></mfrac><mo>,</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mi>M</mi></munderover><msub><mi>y</mi><mi>i</mi></msub></mrow><mi>M</mi></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>其中,M是前景目标的像素个数,(x<sub>i</sub>,y<sub>i</sub>)是前景的坐标;(6)对背景视频的配准处理,又具体包括以下三个步骤:(a)使用Harris角点检测的方法提取图像中物体的角点作为特征点:首先把彩色图像转换为灰度图像,在高斯窗内计算图像x轴方向和y轴方向的一阶偏导数f<sub>x</sub>和f<sub>y</sub>,然后使用以下公式计算C矩阵:<maths num="0004"><![CDATA[<math><mrow><mi>C</mi><mo>=</mo><mi>G</mi><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>&CircleTimes;</mo><mfenced open='[' close=']'><mtable><mtr><mtd><msubsup><mi>f</mi><mi>x</mi><mn>2</mn></msubsup></mtd><mtd><msub><mi>f</mi><mi>x</mi></msub><msub><mi>f</mi><mi>y</mi></msub></mtd></mtr><mtr><mtd><msub><mi>f</mi><mi>x</mi></msub><msub><mi>f</mi><mi>y</mi></msub></mtd><mtd><msubsup><mi>f</mi><mi>y</mi><mn>2</mn></msubsup></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>其中,G(σ)为高斯窗函数;然后利用“角”函数R来判定图像中物体的特征点:R=Det(C)-αTr<sup>2</sup>(C)  0.04≤α≤0.06其中,α为特征值修正系数,一般取0.04-0.06之间;当某像素点的R值大于设定的某一阈值T(T>0)时,该点就是检测出的特征点;(b)NCC相关点匹配:使用NCC相关性算法计算图像间特征点的相关性,得到成对的相关特征点;NCC相关性计算公式如下:<maths num="0005"><![CDATA[<math><mrow><mi>NCC</mi><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mo>,</mo><msub><mi>I</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>-</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mi>i</mi><mo>,</mo><mi>y</mi><mo>-</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><mover><msub><mi>I</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mi>i</mi><mo>,</mo><mi>y</mi><mo>-</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><mover><msub><mi>I</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msub><mi>I</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mi>i</mi><mo>,</mo><mi>y</mi><mo>-</mo><mi>j</mi><mo>)</mo></mrow><mo>-</mo><mover><msub><mi>I</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msub><mi>I</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mi>i</mi><mo>,</mo><mi>y</mi><mo>-</mo><mi>j</mi><mo>)</mo></mrow><mover><msub><mi>I</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mfrac></mrow></math>]]></maths>其中:I<sub>1</sub>和I<sub>2</sub>为两幅同时刻视频帧的像素值;<maths num="0006"><![CDATA[<math><mrow><mover><msub><mi>I</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><msub><mi>I</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mi>i</mi><mo>,</mo><mi>y</mi><mo>-</mo><mi>j</mi><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths><maths num="0007"><![CDATA[<math><mrow><mover><msub><mi>I</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mo>-</mo><mi>N</mi></mrow><mi>N</mi></munderover><msub><mi>I</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mi>i</mi><mo>,</mo><mi>y</mi><mo>-</mo><mi>j</mi><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>分别为图像I<sub>1</sub>和I<sub>2</sub>以(x,y)为中心的2N×2N图像窗内的像素均值,(x-i,y-j)为图像I<sub>1</sub>和I<sub>2</sub>中像素坐标,N∈(3,11);将NCC的相似度值归一化在[-1,1]范围内;(c)RANSAC提纯处理:使用RANSAC方法采用抽样的方式提取四对相关的特征点计算图像变换矩阵,然后把图像I<sub>2</sub>的所有特征点坐标变换到图像I<sub>1</sub>的坐标系中,计算其与图像I<sub>1</sub>中对应相关点的坐标误差值,即两点间距离;如果小于门限值M,则认为这一对相关点是匹配的特征点,即线内点;按照如上方法继续抽样、计算线内点,直到线内点数量不再增加或者抽样计算达到N次则终止抽样;(7)利用图像间成对的匹配特征点计算八变量投影变换矩阵,使图像按匹配位置拼合到同一图像空间中;变换公式如下:<maths num="0008"><![CDATA[<math><mrow><mover><mi>X</mi><mo>^</mo></mover><mo>=</mo><mi>HX</mi><mo>=</mo><mfenced open='[' close=']'><mtable><mtr><mtd><msub><mi>h</mi><mn>00</mn></msub></mtd><mtd><msub><mi>h</mi><mn>01</mn></msub></mtd><mtd><msub><mi>h</mi><mn>02</mn></msub></mtd></mtr><mtr><mtd><msub><mi>h</mi><mn>10</mn></msub></mtd><mtd><msub><mi>h</mi><mn>11</mn></msub></mtd><mtd><msub><mi>h</mi><mn>12</mn></msub></mtd></mtr><mtr><mtd><msub><mi>h</mi><mn>20</mn></msub></mtd><mtd><msub><mi>h</mi><mn>21</mn></msub></mtd><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mi>X</mi></mrow></math>]]></maths>其中,H是投影变换矩阵,它是自相关的,h<sub>00</sub>、h<sub>01</sub>、h<sub>02</sub>、h<sub>10</sub>、h<sub>11</sub>、h<sub>12</sub>、h<sub>20</sub>、h<sub>21</sub>为八个所求变量,X=[x,y,1]<sup>T</sup>为图像变换前原始输入图像的坐标,<maths num="0009"><![CDATA[<math><mrow><mover><mi>X</mi><mo>^</mo></mover><mo>=</mo><msup><mrow><mo>[</mo><mover><mi>x</mi><mo>^</mo></mover><mo>,</mo><mover><mi>y</mi><mo>^</mo></mover><mo>,</mo><mn>1</mn><mo>]</mo></mrow><mi>T</mi></msup></mrow></math>]]></maths>为经投影变换后图像坐标;变换结果的自相关坐标<img file="A2009100898410004C7.GIF" wi="38" he="64" />必须归一化以得到非相关的结果X′=[x′y′1]<sup>T</sup>:<maths num="0010"><![CDATA[<math><mrow><msup><mi>x</mi><mo>&prime;</mo></msup><mo>=</mo><mfrac><mrow><msub><mi>h</mi><mn>00</mn></msub><mi>x</mi><mo>+</mo><msub><mi>h</mi><mn>01</mn></msub><mi>y</mi><mo>+</mo><msub><mi>h</mi><mn>02</mn></msub></mrow><mrow><msub><mi>h</mi><mn>20</mn></msub><mi>x</mi><mo>+</mo><msub><mi>h</mi><mn>21</mn></msub><mi>y</mi><mo>+</mo><mn>1</mn></mrow></mfrac><mo>,</mo></mrow></math>]]></maths><maths num="0011"><![CDATA[<math><mrow><msup><mi>y</mi><mo>&prime;</mo></msup><mo>=</mo><mfrac><mrow><msub><mi>h</mi><mn>10</mn></msub><mi>x</mi><mo>+</mo><msub><mi>h</mi><mn>11</mn></msub><mi>y</mi><mo>+</mo><msub><mi>h</mi><mn>12</mn></msub></mrow><mrow><msub><mi>h</mi><mn>20</mn></msub><mi>x</mi><msub><mrow><mo>+</mo><mi>h</mi></mrow><mn>21</mn></msub><mi>y</mi><mo>+</mo><mn>1</mn></mrow></mfrac></mrow></math>]]></maths>其中,x,y为原始图像坐标,x′,y′为变换后图像坐标;由此得出四对特征点对依据下公式可以求出变换矩阵H,但是在实际操作中利用所有匹配的特征点,使用L-M算法迭代求得精确的变换矩阵;<img file="A2009100898410005C3.GIF" wi="978" he="528" />(8)背景图像变换至同一平面,达到背景的拼接;并在重叠区域进行亮度融合,其融合函数如下:<maths num="0012"><![CDATA[<math><mrow><mi>C</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mi>k</mi></msub><mi>w</mi><mrow><mo>(</mo><mi>d</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>)</mo></mrow><msub><mi>I</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mi>k</mi></msub><mi>w</mi><mrow><mo>(</mo><mi>d</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>其中,w是单调函数,一般取w(x)=x,d(x)为图像I<sub>k</sub>(k=1,2,3…)中融合点(x,y)与融合范围边界在x轴上的距离,I<sub>k</sub>(x)为融合点的像素值,C(x)为融合后的像素值;最终得到静态视频帧序列;(9)利用步骤(7)中的投影变换矩阵H及步骤(5)的动态前景特征,匹配识别重叠区域内的动态前景,确定动态前景在相邻视频中的一致关系,将动态前景补回到静态背景视频中;由前面所得到的变换矩阵确定重叠区域范围,进而根据前景的中心、左右极点判断前景是否在重叠区域内;若在重叠区域内,则要判断其与另一视频中相关帧的运动前景是否为同一物体,取一而避免因拍摄角度不同所产生的鬼影现象;判断依据如公式:利用两视频间的变换关系,将两运动前景变换至同一坐标下,判断其重叠面积大于较小目标面积大小的k倍;满足条件则确认为同一目标,保留面积较大者;判断规则如下:S<sub>c1</sub>∩S<sub>c2</sub>>k*S<sub>min</sub>其中,S<sub>c1</sub>与S<sub>c2</sub>分别代表两视频中前景目标的面积,S<sub>min</sub>是S<sub>c1</sub>、S<sub>c2</sub>中较小的一个;(10)融合前景和背景视频,并输出视频拼接结果。
地址 100124北京市朝阳区平乐园100号
您可能感兴趣的专利