发明名称 一种压缩域视频镜头突变与渐变联合自动分割方法及系统
摘要 本发明提供一种压缩域视频镜头突变和渐变联合自动分割方法及系统。针对影响镜头分割性能三个因素:特征提取、不相似性度量以及分割准则,提出基于主成份分析的视频特征提取方法以及压缩域构建纹理特征图的方法;其次,提出时间域多尺度的不相似性度量方法;根据可有效特征化镜头变化的局部特性的参数提出基于自适应阈值的方法,通过1-帧时域间隔的不相似性度量算子,自适应确定出N-帧时间域间隔的长度;并为突变和渐变镜头设计出不相似性度量算子和有效的判别准则。本发明通过全面考虑影响镜头分割性能三个因素,能够有效增强镜头分割算法对镜头内摄像机或物体运动干扰的鲁棒性,抗噪性能强、快速、准确、误检率低,极大提高镜头的分割性能。
申请公布号 CN101650830A 申请公布日期 2010.02.17
申请号 CN200910090794.4 申请日期 2009.08.06
申请人 中国科学院声学研究所 发明人 高丽;王东辉;刘明刚;鄢社锋;侯朝焕
分类号 G06T7/00(2006.01)I;G06T7/40(2006.01)I 主分类号 G06T7/00(2006.01)I
代理机构 北京法思腾知识产权代理有限公司 代理人 杨小蓉
主权项 1、一种压缩域视频镜头突变与渐变联合自动分割方法,包括如下步骤:1)首先在每个视频镜头起始的位置,选择若干视频图像帧构建一个训练样本集,针对样本集中的每帧视频图像,为其分别提取Y分量,Cb分量和Cr分量的DC图像,并针对该样本集中的每帧的三个分量的DC图像,分别通过首尾连接每一个DC图像的每一行,将二维图像矩阵形式转换为一维列向量形式,假设DC图像的大小为h×w,通过首尾连接图像的每一行,得到N=h×w维的图像矢量X<sub>k</sub>:<maths num="0001"><![CDATA[<math><mrow><msub><mi>X</mi><mi>k</mi></msub><mo>=</mo><msup><mrow><mo>[</mo><msubsup><mi>x</mi><mi>k</mi><mrow><mo>(</mo><mn>1,1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>x</mi><mi>k</mi><mrow><mo>(</mo><mn>1,2</mn><mo>)</mo></mrow></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>x</mi><mi>k</mi><mrow><mo>(</mo><mn>1</mn><mo>,</mo><mi>w</mi><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>x</mi><mi>k</mi><mrow><mo>(</mo><mn>2,1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>x</mi><mi>k</mi><mrow><mo>(</mo><mn>2</mn><mo>,</mo><mi>w</mi><mo>)</mo></mrow></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>x</mi><mi>k</mi><mrow><mo>(</mo><mi>h</mi><mo>,</mo><mi>w</mi><mo>)</mo></mrow></msubsup><mo>]</mo></mrow><mi>T</mi></msup></mrow></math>]]></maths>假定选择M个图像矢量组成训练样本集,用矩阵P表示,这是一个N×M大小的矩阵,其中,N>>M,每一帧的图像矢量作为该矩阵的列向量,P=[X<sub>1</sub>,X<sub>2</sub>,X<sub>3</sub>,......,X<sub>M-1</sub>,X<sub>M</sub>];2)针对步骤1)所构建的DC图像样本集,进行主成份分析,计算得到该样本集的特征值和相应的特征向量:计算矩阵P的协方差矩阵,C=PP<sup>T</sup>对协方差矩阵C计算特征值λ<sub>i</sub>和相应的特征向量e<sub>i</sub>;3)针对步骤2)所得到的特征向量,仅保留最大特征值对应的特征向量,由其构造新的一维特征子空间,用矩阵φ表示,最大特征值对应的特征向量是其列向量,至此,通过训练样本集的主成份分析,成功构建三个颜色分量Y,Cb和Cr对应的新特征子空间;4)接着,将样本集之后的视频图像作为检测帧,检测镜头发生变化的位置,针对当前检测图像帧,从镜头起始位置处开始,分别针对Y分量、Cb分量、Cr分量三个色度分量,利用步骤1)所述的方法,分别提取各自的DC图像,并且将各分量的DC图像向步骤3)所构造的各分量的特征子空间中进行投影,从而提取得到各分量的一维投影系数,利用矩阵φ,视频序列的每帧图像X<sub>k</sub>对应的矢量向该子空间进行投影,获得一维投影系数Y<sub>k</sub>:Y<sub>k</sub>=φ<sup>T</sup>X<sub>k</sub>这里,k代表帧数;5)根据步骤4)的结果,联合Y分量、Cb分量、Cr分量三个色度分量对应的三个一维投影系数,构造特征集:V<sub>k</sub>=&lt;Y<sub>k</sub><sup>Y</sup>,Y<sub>k</sub><sup>Cb</sup>,Y<sub>k</sub><sup>Cr</sup>&gt;;6)根据步骤5)所提取的特征集V<sub>k</sub>,利用L1范数,计算连续视频帧的特征差异,用1帧时域间隔不相似性d<sub>k</sub>(V<sub>k</sub>,V<sub>k+1</sub>)代表:<maths num="0002"><![CDATA[<math><mrow><msub><mi>d</mi><mi>k</mi></msub><mrow><mo>(</mo><msub><mi>V</mi><mi>k</mi></msub><mo>,</mo><msub><mi>V</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>=</mo><msqrt><msup><mrow><mo>(</mo><msup><msub><mi>Y</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mi>Y</mi></msup><mo>-</mo><msup><msub><mi>Y</mi><mi>k</mi></msub><mi>Y</mi></msup><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msup><msub><mi>Y</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mi>Cb</mi></msup><mo>-</mo><msup><msub><mi>Y</mi><mi>k</mi></msub><mi>Cb</mi></msup><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msup><msub><mi>Y</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mi>Cr</mi></msup><mo>-</mo><msup><msub><mi>Y</mi><mi>k</mi></msub><mi>Cr</mi></msup><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mrow></math>]]></maths>7)根据步骤6)计算得到的1帧时域间隔不相似性d<sub>k</sub>(V<sub>k</sub>,V<sub>k+1</sub>),基于滑动窗口的突变镜头分割准则,对当前帧是否为突变镜头进行判别,判断准则包括:a)当前帧的一维投影系数的绝对差是关于当前帧对称的时间窗口中的最大值,即d<sub>k</sub>≥d<sub>i</sub>,i=k-m+1,...,k-1,k+1,...,k+m-1这里,所述滑动窗口的大小N<sub>a</sub>=2m-1,其中,k代表当前帧的时间序号,m代表以当前帧为中心在时间域分别向前和向后移动的帧数。b)该时间窗口中,最大的绝对差值是第二大绝对差值的3~5倍,<maths num="0003"><![CDATA[<math><mrow><mfrac><mrow><mi>max</mi><mo>{</mo><msub><mi>d</mi><mi>i</mi></msub><mo>|</mo><mi>i</mi><mo>=</mo><mi>k</mi><mo>-</mo><mi>m</mi><mo>+</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>k</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>k</mi><mo>,</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>k</mi><mo>+</mo><mi>m</mi><mo>-</mo><mn>1</mn><mo>}</mo></mrow><mrow><mover><mi>max</mi><mo>^</mo></mover><mo>{</mo><msub><mi>d</mi><mi>i</mi></msub><mo>|</mo><mi>i</mi><mo>=</mo><mi>k</mi><mo>-</mo><mi>m</mi><mo>+</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>k</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>k</mi><mo>,</mo><mi>k</mi><mo>+</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>k</mi><mo>+</mo><mi>m</mi><mo>-</mo><mn>1</mn><mo>}</mo></mrow></mfrac><mo>=</mo><mn>3</mn><mo>~</mo><mn>5</mn></mrow></math>]]></maths>这里,max{·}表示最大的绝对差值,<img file="A2009100907940003C3.GIF" wi="136" he="73" />表示第二大的绝对差值,如果同时满足上述两个判别准则,则判断为当前帧发生镜头突变,则停止对当前镜头变换的搜索,然后,将跳转到所述步骤1),开始对新出现的相邻的下一个镜头变换进行检测,否则,将继续执行下面的步骤8);8)如果判断出当前帧没有发生镜头突变,则在以当前帧为对称中心的滑动窗口内,针对步骤6)计算得到的1帧时域间隔不相似性d<sub>k</sub>(V<sub>k</sub>,V<sub>k+1</sub>)进行一维低通滤波,从而得到新的1帧时域间隔不相似特征,用于渐变镜头的判断:选择另一个相对于当前帧对称的一维时间滑动窗口,然后,利用一维低通滤波器作用于该时间窗口内的1帧时域间隔不相似性d<sub>k</sub>(V<sub>k</sub>,V<sub>k+1</sub>),即d<sub>i</sub>(i=k-n+1,...,k-1,k,k+1,...k+n-1),并从得到的低通滤波结果中,选取其中的最大值作为当前帧新的检测特征b<sub>k</sub>,用于渐变镜头的检测,b<sub>k</sub>=max{B<sub>i</sub>|i=k-n+1,...,k-1,k,k+1,...,k+n-1}这里,滑动窗口大小N<sub>g</sub>=2n-1,而B<sub>i</sub>表示时间窗口内各元素的低通滤波结果,n代表以当前帧为中心在时间域分别向前和向后移动的帧数;9)根据步骤8)所提取的1帧时域间隔不相似特征b<sub>k</sub>,通过基于以当前帧为对称中心的滑动窗口方法,为当前帧提取出表征渐变特性的两个参数:前向比率R<sub>f</sub>(k)和后向比率R<sub>b</sub>(k),假设当前帧k的前向窗口和后向窗口大小分别为N<sub>f</sub>和N<sub>b</sub>,则前向窗口的均值和后向窗口的均值分别为:<maths num="0004"><![CDATA[<math><mrow><msub><mover><mi>M</mi><mo>&OverBar;</mo></mover><mi>f</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>f</mi></msub></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mi>k</mi><mo>-</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>-</mo><msub><mi>N</mi><mi>f</mi></msub></mrow></munderover><msub><mi>b</mi><mi>i</mi></msub></mrow></math>]]></maths><maths num="0005"><![CDATA[<math><mrow><msub><mover><mi>M</mi><mo>&OverBar;</mo></mover><mi>b</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>b</mi></msub></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mi>k</mi><mo>+</mo><mn>1</mn></mrow><mrow><mi>k</mi><mo>+</mo><msub><mi>N</mi><mi>b</mi></msub></mrow></munderover><msub><mi>b</mi><mi>i</mi></msub></mrow></math>]]></maths>其中,M<sub>f</sub>(k)为前向窗口的均值,而M<sub>b</sub>(k)为后向窗口的均值,由此,分别通过下述公式计算得到前向比率R<sub>f</sub>(k)和后向比率R<sub>b</sub>(k):<maths num="0006"><![CDATA[<math><mrow><msub><mi>R</mi><mi>f</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>b</mi><mi>k</mi></msub><mrow><msub><mover><mi>M</mi><mo>&OverBar;</mo></mover><mi>f</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths><maths num="0007"><![CDATA[<math><mrow><msub><mi>R</mi><mi>b</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>b</mi><mi>k</mi></msub><mrow><msub><mover><mi>M</mi><mo>&OverBar;</mo></mover><mi>b</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow></math>]]></maths>10)根据步骤9)所提取的两个表征参数:前向比率R<sub>f</sub>(k)和后向比率R<sub>b</sub>(k),根据下述决策准则确定用来检测候选的镜头渐变,用于检测候选的镜头渐变的决策准则包括:a)镜头渐变引起的局部曲线峰的起始帧的前向比率R<sub>f</sub>(k)通常高于自适应阈值T<sub>p</sub>,而同时它的后向比率R<sub>b</sub>(k)通常低于自适应阈值T<sub>p</sub>,与此同时,起始帧的前向比率R<sub>f</sub>(k)是一个局部极大值;b)镜头渐变引起的局部曲线峰的结束帧的前向比率R<sub>f</sub>(k)通常低于自适应阈值T<sub>p</sub>,而同时它的后向比率R<sub>b</sub>(k)通常高于自适应阈值T<sub>p</sub>,与此同时,结束帧的后向比率R<sub>b</sub>(k)是一个局部极大值;c)镜头渐变引起的局部曲线峰持续阶段,视频帧的前向比率R<sub>f</sub>(k)和后向比率R<sub>b</sub>(k)通常均低于自适应阈值;满足上述三个准则的局部曲线峰作为候选镜头渐变,继续执行下面的步骤11),来最终判定其是否为真正的镜头渐变;11)根据步骤10)所得到的作为候选镜头渐变引起的局部曲线峰,自适应地确定出当前渐变镜头的时域长度,进行N帧视域间隔的不相似性度量,分别对局部曲线峰的起始帧和结束帧直接在压缩域内提取纹理特征图,利用图像帧在压缩域中基于块DCT系数中的AC系数,并且是左上角的三个AC系数,即X(0,1),X(1,0)和X(1,1),由此,AC能量图下述公式计算得到:<maths num="0008"><![CDATA[<math><mrow><msub><mi>E</mi><mi>ac</mi></msub><mo>=</mo><mfrac><mn>1</mn><mn>3</mn></mfrac><mrow><mo>(</mo><mo>|</mo><mi>X</mi><mrow><mo>(</mo><mn>0,1</mn><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mo>|</mo><mi>X</mi><mrow><mo>(</mo><mn>1,0</mn><mo>)</mo></mrow><mo>|</mo><mo>+</mo><mo>|</mo><mi>X</mi><mrow><mo>(</mo><mn>1,1</mn><mo>)</mo></mrow><mo>|</mo><mo>)</mo></mrow></mrow></math>]]></maths>然后,针对该AC能量图E<sub>ac</sub>通过下述公式进行二值化处理:<maths num="0009"><![CDATA[<math><mrow><msub><mi>MAP</mi><mi>texture</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn><mo>,</mo><mi>if</mi><msub><mi>E</mi><mi>ac</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>></mo><mfrac><mn>1</mn><mi>hw</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>h</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>w</mi></munderover><mo>|</mo><msub><mi>E</mi><mi>ac</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>|</mo><mo>;</mo></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo><mi>other</mi><mo>;</mo></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>针对二值化的纹理特征图MAP<sub>texture</sub>利用数学形态学的闭操作与开操作进行后处理,提取到最终的纹理特征图;12)根据步骤11)所得到的起始帧和结束帧的纹理特征图,通过相似性度量方法对局部曲线峰的起始帧和结束帧进行相似程度比较,如果该两帧的相似程度较高,则判断为该局部曲线峰没有发生镜头渐变,相似性度量算子如下述公式所示:<maths num="0010"><![CDATA[<math><mrow><mi>S</mi><mo>=</mo><mfrac><mrow><mi>&Sigma;</mi><msub><mi>MAP</mi><mi>texture</mi></msub><mrow><mo>(</mo><mi>start</mi><mo>_</mo><mi>frame</mi><mo>)</mo></mrow><mo>&cap;</mo><msub><mi>MAP</mi><mi>texture</mi></msub><mrow><mo>(</mo><mi>end</mi><mo>_</mo><mi>frame</mi><mo>)</mo></mrow></mrow><mrow><mi>&Sigma;</mi><msub><mi>MAP</mi><mi>texture</mi></msub><mrow><mo>(</mo><mi>start</mi><mo>_</mo><mi>frame</mi><mo>)</mo></mrow><mo>&cup;</mo><msub><mi>MAP</mi><mi>textue</mi></msub><mrow><mo>(</mo><mi>end</mi><mo>_</mo><mi>frame</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>如果相似度S高于设定的阈值,则判断为该局部曲线峰没有镜头渐变发生,则返回所述步骤4),开始对下一个检测帧的操作,反之,如果相似度S小于等于设定的阈值,则判定发生镜头渐变,从而返回所述步骤1),开始下一个镜头变换的检测。
地址 100190北京市海淀区北四环西路21号中国科学院声学研究所