发明名称 一种用于视频对象快速提取的交互方法
摘要 本发明涉及一种新的视频对象提取的交互方法。该方法提供了一种更加直观和友好的交互方法,用户能够以逐步选取的方式快速准确地提取出视频对象。为了给用户提供快速的响应,本发明加速并改进了基于graph-cut(图割)的优化算法,大大提升了视频交互式选择的性能和效率。本发明可以为视频编辑提供更加实用的对象选择工具,并提高视频编辑处理的效率,让用户有更好的操作体验。
申请公布号 CN102289847A 申请公布日期 2011.12.21
申请号 CN201110219610.7 申请日期 2011.08.02
申请人 浙江大学 发明人 张赟;丁濛;童若锋
分类号 G06T19/20(2011.01)I 主分类号 G06T19/20(2011.01)I
代理机构 浙江杭州金通专利事务所有限公司 33100 代理人 沈孝敬
主权项 1.一种用于视频对象快速提取的交互方法,其特征在于包括以下步骤:a.提取视频对象:用视频刷在连续帧上拖动,且视频以一定的速度向前或向后进行播放。当视频刷完成当前帧的绘制将要进入下一帧时,根据在当前帧上留下的前景标记,触发视频对象逐步选取的计算;b.视频对象逐步提取的计算:将选定的视频对象中所有像素点的二值标签X={x<sub>p</sub>}(0-表示背景,1-表示前景)通过最小化以下的能量方程来完成:E(X)=∑<sub>p</sub>E<sub>d</sub>(x<sub>p</sub>)+λ∑<sub>p,q</sub>E<sub>c</sub>(x<sub>p</sub>,x<sub>q</sub>)                                                            (1)其中E<sub>d</sub>是数据项,其含义是衡量像素与前景和背景模型的匹配度;E<sub>c</sub>是平滑项,它用来衡量当前像素与同一帧和相邻帧的邻近像素间的颜色差异。其中的像素点q表示p的6邻域,该邻域由像素点p在同一帧的4邻域和相邻帧的2邻域组成;λ是权重项,主要是用来平衡数据项和平滑项在能量方程中的重要性;以上所述的数据项E<sub>d</sub>和平滑项E<sub>c</sub>分别用式(2)和式(3)计算:<maths num="0001"><![CDATA[<math><mrow><msub><mi>E</mi><mi>d</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>x</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>K</mi></mtd><mtd><mo>&ForAll;</mo><mi>p</mi><mo>&Element;</mo><mi>S</mi></mtd></mtr><mtr><mtd><msub><mi>x</mi><mi>p</mi></msub><mo>&CenterDot;</mo><mi>K</mi></mtd><mtd><mo>&ForAll;</mo><mi>p</mi><mo>&Element;</mo><msup><mi>S</mi><mi>B</mi></msup></mtd></mtr><mtr><mtd><msub><mi>x</mi><mi>p</mi></msub><mo>&CenterDot;</mo><msubsup><mi>L</mi><mi>p</mi><mi>f</mi></msubsup><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>x</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><msubsup><mi>L</mi><mi>p</mi><mi>b</mi></msubsup></mtd><mtd><mo>&ForAll;</mo><mi>p</mi><mo>&Element;</mo><mi>U</mi><mo>/</mo><mrow><mo>(</mo><mi>S</mi><mo>&cup;</mo><msup><mi>S</mi><mi>B</mi></msup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>E<sub>c</sub>(x<sub>p</sub>,x<sub>q</sub>)=|x<sub>p</sub>-x<sub>q</sub>|·(β·||I<sub>p</sub>-I<sub>q</sub>||+ε)<sup>-1</sup>                                                (3)式中K是一个大于10000的常数;<img file="FDA0000080590590000012.GIF" wi="318" he="62" /><img file="FDA0000080590590000013.GIF" wi="313" he="56" />分别表示像素点I<sub>p</sub>与前景和背景模型之间的距离;β=(&lt;||I<sub>p</sub>-I<sub>q</sub>||&gt;)<sup>-1</sup>,&lt;·&gt;表示该结果在所有视频帧上的期望值,||·||表示像素点p和q在RGB颜色空间上的欧氏距离;S(种子区域)表示视频刷在当前帧中留下的标记与未知区域(U)相交的部分;SB表示用户用于扩展背景时的种子区域;L区域是指膨胀后的S区域与已有前景区域(F)相交的部分;当视频刷进入某一帧的未知区域(U)且将要离开该帧时,将会触发视频逐步提取的计算,经上述计算结果将产生新的前景区域(F’)。
地址 310027 浙江省杭州市浙大路38号