主权项 |
一种用于多视图视频摘要的多视图度量学习方法,其包括以下步骤:(1)将视频记录分解成帧的集合,表示为X<sup>(1)</sup>,…,X<sup>(K</sup><sup>)</sup> ,其中<img file="252176dest_path_image001.GIF" wi="280" he="30" />,是表示第k视图的n个帧的d<sub>k</sub>维度特征, R表示实数, d<sub>k</sub>表示第k个视图空间的维数,n表示帧数;(2)根据处于X<sup>(1)</sup>,…,X<sup>(K</sup><sup>)</sup> 中的信息,学习统一化的度量空间X,其中<img file="581526dest_path_image002.GIF" wi="84" he="22" />, d表示映射后空间的维数;(3)执行在X上的聚类,使用聚类的中心作为代表,表示成<img file="842743dest_path_image003.GIF" wi="352" he="29" />, F表示摘要的集合,i<sub>1</sub>…i<sub>C</sub>表示一帧的ID;(4)对每个f<sub>ic</sub>从K个帧中选出一个和它对应的帧,并输出这些帧作为最后摘要;其中,在执行学习的步骤中,寻找统一的坐标矩阵<img file="308360dest_path_image004.GIF" wi="236" he="26" />,使其最小化<img file="691937dest_path_image005.GIF" wi="404" he="33" />,其中,R<sub>emp</sub>(X), R<sub>struct</sub>(X), R<sub>diff</sub>(X)分别是X的经验损失、结构损失以及不一致损失;γ<sub>1</sub>, γ<sub>2</sub>是控制目标之间平衡的参数;并且经验损失R<sub>emp</sub>(X)为0;结构损失R<sub>struct</sub>(X)为<img file="508583dest_path_image006.GIF" wi="352" he="60" />,其中G<sub>X</sub>是度量X的相似性变换,<img file="307912dest_path_image007.GIF" wi="18" he="25" />是归一化拉普拉斯算子, λ<sub>i</sub>是<img file="893614dest_path_image008.GIF" wi="50" he="21" />的本征值,c表示预定义的类的个数;不一致损失R<sub>diff</sub>(X)为<img file="385775dest_path_image009.GIF" wi="367" he="46" />,其中tr是迹。 |