发明名称 一种从视频中提取视频关键帧的方法
摘要 本发明涉及一种从视频中提取视频关键帧的方法,属于图像处理技术领域。本发明的从视频中提取视频关键帧的方法,操作人员通过装置对感兴趣的场景进行视频拍摄。在拍摄过程中装置同步记录视频的视频帧、加速度信息、方位信息和尺度信息。拍摄完成后直接根据加速度信息、方位信息和尺度信息,对每一帧视频帧计算其权重。最后根据权重和期望的关键帧数目来提取期望的视频关键帧。本发明提出的从视频中提取视频关键帧的方法,可以用更小的计算量更准确的从视频中提取视频关键帧。
申请公布号 CN103533237A 申请公布日期 2014.01.22
申请号 CN201310456215.X 申请日期 2013.09.29
申请人 清华大学 发明人 刘华平;刘玉龙;孙富春
分类号 H04N5/232(2006.01)I;G06T7/20(2006.01)I 主分类号 H04N5/232(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 罗文群
主权项 1.一种从视频中提取视频关键帧的方法,其特征在于,该方法包括以下步骤:(1)使用视频拍摄装置,拍摄现场场景,得到视频,设定视频中共有T帧视频帧,并记录每一拍摄时刻拍摄装置摄像头的缩放尺度信息;(2)使用与拍摄视频相同的频率,分别记录每一拍摄时刻拍摄装置在直角坐标系中沿x、y、z轴的线性加速度信息;(3)使用与拍摄视频相同的频率,用方位传感器记录每一拍摄时刻拍摄装备在上述直角坐标系中的方位信息;(4)根据上述记录的方位信息、线性加速度信息和尺度信息,从视频中提取关键帧,包括以下步骤:(4-1)提取视频中拍摄第k帧视频帧时的装置的特征信息,包括:第k帧视频帧拍摄时刻的拍摄装置方位信息o<sub>k</sub>=[o<sub>x,k</sub>,o<sub>y,k</sub>,o<sub>z,k</sub>]<sup>T</sup>,其中o<sub>x,k</sub>表示第k帧视频帧拍摄时刻拍摄装置的滚转角度,即装置短边与水平面的夹角,o<sub>y,k</sub>表示第k帧视频帧拍摄时刻拍摄装置的俯仰角度,即装置长边与水平面的夹角,o<sub>z,k</sub>表示第k帧视频帧拍摄时刻拍摄装置的左右摇摆角度,即装置顶端指向的方向与正北方向的夹角;第k帧视频帧拍摄时刻的拍摄装置的加速度信息α<sub>k</sub>=[a<sub>x,k</sub>,a<sub>y,k</sub>,a<sub>z,k</sub>]<sup>T</sup>,其中a<sub>x,k</sub>,a<sub>y,k</sub>,a<sub>z,k</sub>为装置分别在直角坐标系的x,y,z轴上的加速度,尺度信息s<sub>k</sub>表示在拍摄第k帧时摄像头的缩放尺度;(4-2)采用离散余弦变换,对上述得到的视频进行特征信息提取,得到视频中第k帧视频帧的视频帧特征信息f<sub>k</sub>;(4-3)重复步骤(4-1)和步骤(4-2),得到上述视频中每一帧视频帧的拍摄装置方位信息、拍摄装置的加速度信息、摄像头的缩放尺度和视频帧特征信息;(4-5)计算视频中每一帧视频帧的加速度权重ω<sub>ak</sub>:ω<sub>ak</sub>=exp(-λ<sub>1</sub>||a<sub>k</sub>||<sub>2</sub>),其中λ<sub>1</sub>为加速度调节参数,||a<sub>k</sub>||<sub>2</sub>代表加速度信息a<sub>k</sub>向量的二范数,λ<sub>1</sub>的取值范围可根据加速度的数量级确定,一般在0.1~1;(4-6)计算视频中每一帧视频帧的的尺度权重ω<sub>sk</sub>:ω<sub>sk</sub>=exp(λ<sub>2</sub>s<sub>k</sub>),其中λ<sub>2</sub>为尺度调节参数,λ<sub>2</sub>的取值范围为:0.5~1;(4-7)计算视频中每一帧视频帧的总权重ω<sub>k</sub>:ω<sub>k</sub>=ω<sub>ak</sub>ω<sub>sk</sub>;(4-8)采用K均值算法,对上述视频中所有视频帧拍摄时刻的拍摄装置方位信息进行聚类,得到C个聚类中心,C为根据视频长度等信息选取的参数,C的取值范围为:1~T,T为视频中所有视频帧的帧数,并将所有的视频帧归类到与相应拍摄装置的方位信息最接近的聚类中心所属的类中;(4-9)建立一个优化目标函数如下:<maths num="0001"><![CDATA[<math><mrow><mi>J</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>C</mi></munderover><msub><mi>&omega;</mi><mi>k</mi></msub><msubsup><mi>&mu;</mi><mi>kj</mi><mn>2</mn></msubsup><msubsup><mrow><mo>|</mo><mo>|</mo><msub><mi>o</mi><mi>k</mi></msub><mo>-</mo><msubsup><mi>&upsi;</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup><mo>|</mo><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>2</mn></msubsup><mo>,</mo></mrow></math>]]></maths>约束条件为:<maths num="0002"><![CDATA[<math><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>C</mi></munderover><msub><mi>&mu;</mi><mi>kj</mi></msub><mo>=</mo><mn>1,0</mn><mo>&le;</mo><msub><mi>&mu;</mi><mi>kj</mi></msub><mo>&le;</mo><mn>1</mn></mrow></math>]]></maths>其中k为视频帧的序号,j为聚类中心的类别,j∈[1,C],μ<sub>kj</sub>是待求解的参数,υ<sub>j</sub>聚类中心,p为当前迭代次数;(4-10)初始化时,设p=0,<img file="FDA0000390317480000023.GIF" wi="122" he="131" />的初始值为第j个聚类中心的向量;(4-11)计算μ<sub>kj</sub>:<maths num="0003"><![CDATA[<math><mrow><msub><mi>&mu;</mi><mi>kj</mi></msub><mo>=</mo><mn>1</mn><mo>/</mo><msubsup><mrow><mo>|</mo><mo>|</mo><msub><mi>o</mi><mi>k</mi></msub><mo>-</mo><msubsup><mi>&upsi;</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>2</mn></msubsup></mrow></math>]]></maths>(4-12)根据上述计算结果,更新μ<sub>kj</sub>的值,计算μ<sub>kj</sub>:<maths num="0004"><![CDATA[<math><mrow><msub><mi>&mu;</mi><mi>kj</mi></msub><mo>=</mo><msub><mi>&mu;</mi><mi>kj</mi></msub><mo>/</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>C</mi></munderover><msub><mi>&mu;</mi><mi>kj</mi></msub></mrow></math>]]></maths>(4-13)根据步骤(4-12)计算得到的μ<sub>kj</sub>,计算<img file="FDA0000390317480000026.GIF" wi="186" he="117" /><img file="FDA0000390317480000027.GIF" wi="554" he="380" />(4-14)设定一个迭代终止阈值ε,若<img file="FDA0000390317480000031.GIF" wi="786" he="134" />则使p=p+1,并返回步骤(4-11),若<img file="FDA0000390317480000032.GIF" wi="777" he="134" />则进行步骤(4-15),ε的取值范围为:0.01~0.001;(4-15)通过下式,得到一个初始关键帧集合K={t<sub>1</sub>,t<sub>1</sub>,…,t<sub>C</sub>}:<maths num="0005"><![CDATA[<math><mrow><msub><mi>t</mi><mi>j</mi></msub><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mrow><mi>k</mi><mo>&Element;</mo><mo>[</mo><mn>1</mn><mo>,</mo><mi>T</mi><mo>]</mo></mrow></munder><msub><mi>&mu;</mi><mi>kj</mi></msub><mo>,</mo></mrow></math>]]></maths>其中j∈[1,C];(4-16)计算上述初始关键帧集合K中任意两幅视频帧的视频帧特征信息的相似度<maths num="0006"><![CDATA[<math><mrow><msub><mi>S</mi><mrow><msub><mi>t</mi><mi>i</mi></msub><mo>,</mo><msub><mi>t</mi><mi>j</mi></msub></mrow></msub><mo>=</mo><msubsup><mrow><mo>|</mo><mo>|</mo><msub><mi>f</mi><msub><mi>t</mi><mi>i</mi></msub></msub><mo>-</mo><msub><mi>f</mi><msub><mi>t</mi><mi>j</mi></msub></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>2</mn></msubsup><mo>,</mo></mrow></math>]]></maths>其中i,j∈[1,C];(4-17)设定一个相似度阈值,遍历步骤(4-16)计算得到的初始关键帧集合K中的任意两帧,计算任意两帧的视频帧特征信息的相似度<img file="FDA0000390317480000035.GIF" wi="495" he="115" />与相似度阈值进行比较,若<img file="FDA0000390317480000036.GIF" wi="769" he="103" />则从上述初始关键帧集合K中删除t<sub>j</sub>;若<img file="FDA0000390317480000037.GIF" wi="278" he="99" />且<img file="FDA0000390317480000038.GIF" wi="467" he="114" />则从上述初始关键帧集合K中删除t<sub>i</sub>;若<img file="FDA0000390317480000039.GIF" wi="267" he="99" />则在上述初始关键帧集合K中保留t<sub>i</sub>和t<sub>j</sub>,重复本步骤,得到的集合K即为视频关键帧,δ的取值范围为:0.2~0.3。
地址 100084 北京市海淀区清华园1号