主权项 |
基于视觉空间的视频检索方法,其特征在于包括以下步骤:步骤1、构建初始视觉概念空间:1A、构建代表视觉关系的知识库;1B、对视觉关系的知识库进行扩展构成初始的概念集C,C=[C1,C2,…,Cn]里面含有n个概念;步骤2、构成初始的训练检测集:采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,训练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’;步骤3、构建视觉空间:3A、衡量所有概念对之间的相似度,得到一个矩阵R,对R进行谱分解,得到每个概念的向量表示;3B、量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念;3C、选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S;步骤4、基于视觉空间的查询过程:4A、将视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,获得样本Q在视觉空间中表达向量CQ={q1,q2,...};4B、然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,CQ就得到一组概念{Cq1,Cq2,...},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度,公式如下: <mrow> <mi>Semantic</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> <msub> <mi>C</mi> <mi>j</mi> </msub> </mrow> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>*</mo> <mo>|</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>4C、计算该查询对于某个视频片段I的相似度,计算公式如下: <mrow> <mi>Sim</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>Σ</mi> <mrow> <msub> <mi>C</mi> <mi>qi</mi> </msub> <mo>∈</mo> <msub> <mi>C</mi> <mi>Q</mi> </msub> </mrow> </msub> <mi>Semantic</mi> <mrow> <mo>(</mo> <mi>qi</mi> <mo>,</mo> <msub> <mi>C</mi> <mi>qi</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>Score</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>qi</mi> </msub> <mo>,</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,利用公式(7)得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完 成视频片段的查询。 |