基于时空关系的互联网视频片段间关系识别方法,申请号CN201310136936.2-传众专利搜索

发明名称	基于时空关系的互联网视频片段间关系识别方法
摘要	本发明涉及一种基于时空关系的互联网视频片段间关系识别方法，包括以下步骤：对视频库中的视频片段，检测出其所包含的所有镜头，检测出每个镜头中的每一个关键帧，并描述其颜色特征、轮廓特征和局部极值点个数；基于关键帧的图像特征信息相似性得出两个关键帧之间的相似性，根据关键帧相似性信息计算出镜头之间的相似性，根据镜头间相似性，归纳出视频片段间的关系。本发明为用户提供了一种网络视频库浏览和查询引导的工具，不受外界因素的限制和干扰。该系统能在没有附加条件的指引下快速浏览所有的视频信息，同时以直观的网状关系图展示出视频间的相互关系，引导用户直观而快速地查询所需的内容。
申请公布号	CN103235806A	申请公布日期	2013.08.07
申请号	CN201310136936.2	申请日期	2013.04.19
申请人	北京理工大学	发明人	黄华;刘洪;张磊
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	1.一种基于时空关系的互联网视频片段间关系识别方法，其特征在于，包括以下步骤：步骤一：对视频库C中的视频片段C<sub>i</sub>，检测出其所包含的所有镜头<img file="FDA00003072649100011.GIF" wi="232" he="78" />步骤二：对于每个镜头<img file="FDA00003072649100012.GIF" wi="96" he="76" />检测出其关键帧；步骤三：对每个关键帧<img file="FDA00003072649100013.GIF" wi="249" he="86" />用颜色直方图<img file="FDA00003072649100014.GIF" wi="88" he="75" />去描述该关键帧的颜色特征，利用GIST算法求出该关键帧的轮廓特征<img file="FDA00003072649100015.GIF" wi="107" he="82" />利用SIFT算法求出该关键帧的局部极值点个数<img file="FDA00003072649100016.GIF" wi="112" he="79" />步骤四：对于视频库C中任意两个视频片段C<sub>i</sub>和C<sub>p</sub>，计算其关键帧<img file="FDA00003072649100017.GIF" wi="64" he="76" />和<img file="FDA00003072649100018.GIF" wi="64" he="76" />之间的相似性能量函数<img file="FDA00003072649100019.GIF" wi="261" he="92" /><img file="FDA000030726491000110.GIF" wi="1188" he="89" />其中，<img file="FDA000030726491000111.GIF" wi="264" he="85" />为颜色直方图的距离，<img file="FDA000030726491000112.GIF" wi="237" he="83" />为GIST特征之间的不一致性，<img file="FDA000030726491000113.GIF" wi="237" he="88" />为SIFT特征之间的不一致性，α、β和γ分别为这三个变量的系数，取值范围为0-1.0；<img file="FDA000030726491000114.GIF" wi="241" he="86" />的定义如下：<maths num="0001"><![CDATA[<math><mrow><mi>ω</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mi>jk</mi></msubsup><mo>,</mo><msubsup><mi>f</mi><mi>p</mi><mi>qt</mi></msubsup><mo>)</mo></mrow><mo>=</mo><mo>-</mo><mi>exp</mi><mrow><mo>(</mo><mn>1</mn><mo>/</mo><mi>max</mi><mrow><mo>(</mo><msubsup><mi>m</mi><mi>i</mi><mi>jk</mi></msubsup><mo>/</mo><msubsup><mi>m</mi><mi>p</mi><mi>qt</mi></msubsup><mo>,</mo><msubsup><mi>n</mi><mi>i</mi><mi>jk</mi></msubsup><mo>/</mo><msubsup><mi>n</mi><mi>p</mi><mi>qt</mi></msubsup><mo>)</mo></mrow><mo>)</mo></mrow></mrow></math>]]></maths>其中，<img file="FDA000030726491000116.GIF" wi="80" he="75" />和<img file="FDA000030726491000117.GIF" wi="74" he="82" />分别表示关键帧<img file="FDA000030726491000118.GIF" wi="63" he="75" />匹配关键帧<img file="FDA000030726491000119.GIF" wi="62" he="78" />时所匹配的特征点个数和关键帧<img file="FDA000030726491000120.GIF" wi="58" he="75" />匹配关键帧<img file="FDA000030726491000121.GIF" wi="59" he="80" />时所匹配的特征点个数；然后，设置一个阈值，根据计算出的关键帧能量函数<img file="FDA000030726491000122.GIF" wi="222" he="93" />的值是否小于这个阈值，判定关键帧<img file="FDA000030726491000123.GIF" wi="64" he="77" />和<img file="FDA000030726491000124.GIF" wi="63" he="90" />是否相似;步骤五：根据关键帧对<img file="FDA000030726491000126.GIF" wi="81" he="72" />和<img file="FDA000030726491000127.GIF" wi="75" he="79" />之间的对应关系，定义镜头S<sub>i</sub>和S<sub>j</sub>间的相似度能量函数为：<maths num="0002"><![CDATA[<math><mrow><mi>η</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>i</mi></msub><mo>,</mo><msub><mi>S</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mn>1</mn></msub></munderover><mi>s</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mi>jk</mi></msubsup><mo>,</mo><mi>σ</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mi>jk</mi></msubsup><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><munderover><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mn>2</mn></msub></munderover><mi>s</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>p</mi><mi>qt</mi></msubsup><mo>,</mo><mi>σ</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>p</mi><mi>qt</mi></msubsup><mo>)</mo></mrow><mo>)</mo></mrow></mrow></math>]]></maths>其中，s(.)为关键帧间相似性能量函数，<img file="FDA000030726491000129.GIF" wi="157" he="79" />和<img file="FDA000030726491000130.GIF" wi="157" he="78" />分别为关键帧<img file="FDA000030726491000131.GIF" wi="80" he="78" />和<img file="FDA000030726491000132.GIF" wi="80" he="83" />所对应的相似关键帧，T<sub>1</sub>为镜头S<sub>i</sub>和S<sub>j</sub>比对时所找到的相似关键帧对数，T<sub>2</sub>为镜头S<sub>j</sub>和S<sub>i</sub>比对时所找到的相似关键帧对数；然后，设置一个阈值，根据镜头间的相似度能量函数的值是否小于这个阈值，判定两个镜头间是否相似；步骤六：根据镜头间相似性，得到一个描述该视频片段整体特征信息的相似性序列，归纳出视频片段间是否具有前后、包含结构性关系：对于视频片段对C<sub>i</sub>和C<sub>j</sub>，如果C<sub>i</sub>的前半部分镜头和C<sub>j</sub>的后半部分镜头相对应，则C<sub>i</sub>在C<sub>j</sub>之后；如果C<sub>i</sub>的后半部分镜头和C<sub>j</sub>的前半部分镜头相对应，则C<sub>i</sub>在C<sub>j</sub>之前；如果C<sub>i</sub>的所有镜头和C<sub>j</sub>的中间部分镜头相对应，则C<sub>i</sub>包含于C<sub>j</sub>之中；如果C<sub>i</sub>的中间部分镜头和C<sub>j</sub>的所有镜头相对应，则C<sub>i</sub>包含C<sub>j</sub>；如果具有前后、包含结构性关系，则将视频片段对C<sub>i</sub>和C<sub>j</sub>之间的关系变量Re<sub>ij</sub>赋值为当前关系，并对它们之间的相似性变量ρ<sub>ij</sub>赋一个对应的值；ρ<sub>ij</sub>的赋值规则为：<img file="FDA00003072649100021.GIF" wi="1047" he="172" />步骤七：设置一个旋转关系阈值，对于镜头间相似性能量函数大于旋转关系阈值但没有结构性关系的视频片段对，判定为同一场景，抽取其中相似的镜头，并利用SFM算法估计拍摄该镜头时的摄像机位置及视角，将视频片段对Ci和C<sub>j</sub>之间的关系变量Re<sub>ij</sub>赋值为旋转关系，并对它们之间的相似性变量ρ<sub>ij</sub>赋值0.8；步骤八：对于不具有结构性关系也不具有旋转关系的视频片段对C<sub>i</sub>和C<sub>j</sub>，对关键帧做重要性区域检测，采用基于直方图对比的显著性检测方法分割出每个关键帧<img file="FDA00003072649100022.GIF" wi="75" he="74" />和<img file="FDA00003072649100023.GIF" wi="73" he="81" />的特征区域<img file="FDA00003072649100024.GIF" wi="75" he="76" />和<img file="FDA00003072649100025.GIF" wi="105" he="81" />步骤九：对于视频片段对C<sub>i</sub>和C<sub>j</sub>中的两个特征区域<img file="FDA00003072649100026.GIF" wi="73" he="72" />和<img file="FDA00003072649100027.GIF" wi="102" he="82" />采用步骤三和步骤四中关键帧相似性对比的方法，对区域<img file="FDA00003072649100028.GIF" wi="66" he="77" />和<img file="FDA00003072649100029.GIF" wi="73" he="77" />进行比对，求出关键帧中特征区域的相似性，将视频片段对C<sub>i</sub>和C<sub>j</sub>之间的关系变量<img file="FDA000030726491000210.GIF" wi="86" he="75" />赋值为弱关系，并对它们之间的相似性变量ρ<sub>ij</sub>赋值：<maths num="0003"><![CDATA[<math><mrow><msub><mi>ρ</mi><mi>ij</mi></msub><mo>=</mo><mn>0.7</mn><mo>*</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><munderover><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>R</mi><mi>i</mi><mi>jk</mi></msubsup><mo>,</mo><msubsup><mi>R</mi><mi>p</mi><mi>qt</mi></msubsup><mo>)</mo></mrow><mo>)</mo></mrow><mo>/</mo><mrow><mo>(</mo><mi>K</mi><mo>.</mo><mi>T</mi><mo>)</mo></mrow></mrow></math>]]></maths>其中，s(,)为步骤四中定义的相似性能量函数，K和T分别为视频片段C<sub>i</sub>和C<sub>j</sub>对应的总的关键帧个数。
地址	100081 北京市海淀区中关村南大街5号