发明名称 基于视觉空间的视频检索方法
摘要 本发明提出了一种基于视觉空间的视频检索方法。首先构建一个代表视觉关系的知识库,形成初始的视觉概念集。然后采集大量的视频样本应用于初始概念集上,得到初始的训练集,再建立初始训练集内部关系矩阵,对该矩阵进行谱分解,得到每个初始视觉概念的向量表示。将得到的视觉概念向量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,形成视觉概念空间,查询视频通过投射到视觉概念空间进行视频检索。本发明通过构建视觉概念空间的方式,为传统的视频检索提供了一种有效的解决方法,且检索速度快,精度较高,有很大的实时性应用潜力。
申请公布号 CN103279579A 申请公布日期 2013.09.04
申请号 CN201310252964.0 申请日期 2013.06.24
申请人 魏骁勇 发明人 魏骁勇;杨震群;孙洋;黄劲;徐浩然
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都华典专利事务所(普通合伙) 51223 代理人 徐丰;杨保刚
主权项 基于视觉空间的视频检索方法,其特征在于包括以下步骤:步骤1、构建初始视觉概念空间:1A、构建代表视觉关系的知识库;1B、对视觉关系的知识库进行扩展构成初始的概念集C,C=[C1,C2,…,Cn]里面含有n个概念;步骤2、构成初始的训练检测集:采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,训练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’;步骤3、构建视觉空间:3A、衡量所有概念对之间的相似度,得到一个矩阵R,对R进行谱分解,得到每个概念的向量表示;3B、量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念;3C、选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S;步骤4、基于视觉空间的查询过程:4A、将视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,获得样本Q在视觉空间中表达向量CQ={q1,q2,...};4B、然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,CQ就得到一组概念{Cq1,Cq2,...},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度,公式如下: <mrow> <mi>Semantic</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> <msub> <mi>C</mi> <mi>j</mi> </msub> </mrow> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>*</mo> <mo>|</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>4C、计算该查询对于某个视频片段I的相似度,计算公式如下: <mrow> <mi>Sim</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>C</mi> <mi>qi</mi> </msub> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>Q</mi> </msub> </mrow> </msub> <mi>Semantic</mi> <mrow> <mo>(</mo> <mi>qi</mi> <mo>,</mo> <msub> <mi>C</mi> <mi>qi</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>Score</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>qi</mi> </msub> <mo>,</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,利用公式(7)得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完 成视频片段的查询。
地址 610000 四川省成都市武侯区郭家桥正街16号府河竹园16楼1号