一种用于视频对象快速提取的交互方法,申请号CN201110219610.7-传众专利搜索

发明名称	一种用于视频对象快速提取的交互方法
摘要	本发明涉及一种新的视频对象提取的交互方法。该方法提供了一种更加直观和友好的交互方法，用户能够以逐步选取的方式快速准确地提取出视频对象。为了给用户提供快速的响应，本发明加速并改进了基于graph-cut(图割)的优化算法，大大提升了视频交互式选择的性能和效率。本发明可以为视频编辑提供更加实用的对象选择工具，并提高视频编辑处理的效率，让用户有更好的操作体验。
申请公布号	CN102289847A	申请公布日期	2011.12.21
申请号	CN201110219610.7	申请日期	2011.08.02
申请人	浙江大学	发明人	张赟;丁濛;童若锋
分类号	G06T19/20(2011.01)I	主分类号	G06T19/20(2011.01)I
代理机构	浙江杭州金通专利事务所有限公司 33100	代理人	沈孝敬
主权项	1.一种用于视频对象快速提取的交互方法，其特征在于包括以下步骤：a.提取视频对象：用视频刷在连续帧上拖动，且视频以一定的速度向前或向后进行播放。当视频刷完成当前帧的绘制将要进入下一帧时，根据在当前帧上留下的前景标记，触发视频对象逐步选取的计算；b.视频对象逐步提取的计算：将选定的视频对象中所有像素点的二值标签X＝{x<sub>p</sub>}(0-表示背景，1-表示前景)通过最小化以下的能量方程来完成：E(X)＝∑<sub>p</sub>E<sub>d</sub>(x<sub>p</sub>)+λ∑<sub>p，q</sub>E<sub>c</sub>(x<sub>p</sub>，x<sub>q</sub>) (1)其中E<sub>d</sub>是数据项，其含义是衡量像素与前景和背景模型的匹配度；E<sub>c</sub>是平滑项，它用来衡量当前像素与同一帧和相邻帧的邻近像素间的颜色差异。其中的像素点q表示p的6邻域，该邻域由像素点p在同一帧的4邻域和相邻帧的2邻域组成；λ是权重项，主要是用来平衡数据项和平滑项在能量方程中的重要性；以上所述的数据项E<sub>d</sub>和平滑项E<sub>c</sub>分别用式(2)和式(3)计算：<maths num="0001"><![CDATA[<math><mrow><msub><mi>E</mi><mi>d</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>x</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>·</mo><mi>K</mi></mtd><mtd><mo>&ForAll;</mo><mi>p</mi><mo>&Element;</mo><mi>S</mi></mtd></mtr><mtr><mtd><msub><mi>x</mi><mi>p</mi></msub><mo>·</mo><mi>K</mi></mtd><mtd><mo>&ForAll;</mo><mi>p</mi><mo>&Element;</mo><msup><mi>S</mi><mi>B</mi></msup></mtd></mtr><mtr><mtd><msub><mi>x</mi><mi>p</mi></msub><mo>·</mo><msubsup><mi>L</mi><mi>p</mi><mi>f</mi></msubsup><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>x</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>·</mo><msubsup><mi>L</mi><mi>p</mi><mi>b</mi></msubsup></mtd><mtd><mo>&ForAll;</mo><mi>p</mi><mo>&Element;</mo><mi>U</mi><mo>/</mo><mrow><mo>(</mo><mi>S</mi><mo>∪</mo><msup><mi>S</mi><mi>B</mi></msup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>E<sub>c</sub>(x<sub>p</sub>，x<sub>q</sub>)＝\|x<sub>p</sub>-x<sub>q</sub>\|·(β·\|\|I<sub>p</sub>-I<sub>q</sub>\|\|+ε)<sup>-1</sup> (3)式中K是一个大于10000的常数；<img file="FDA0000080590590000012.GIF" wi="318" he="62" /><img file="FDA0000080590590000013.GIF" wi="313" he="56" />分别表示像素点I<sub>p</sub>与前景和背景模型之间的距离；β＝(<\|\|I<sub>p</sub>-I<sub>q</sub>\|\|>)<sup>-1</sup>，<·>表示该结果在所有视频帧上的期望值，\|\|·\|\|表示像素点p和q在RGB颜色空间上的欧氏距离；S(种子区域)表示视频刷在当前帧中留下的标记与未知区域(U)相交的部分；SB表示用户用于扩展背景时的种子区域；L区域是指膨胀后的S区域与已有前景区域(F)相交的部分；当视频刷进入某一帧的未知区域(U)且将要离开该帧时，将会触发视频逐步提取的计算，经上述计算结果将产生新的前景区域(F’)。
地址	310027 浙江省杭州市浙大路38号