发明名称 多视图度量学方法
摘要 本发明公开一种用于多视图视频摘要的多视图度量学方法。其包括以下步骤:将视频分解为帧的集合;学统一化的度量空间;执行在统一度量空间上的聚类;并选择特定帧输出作为摘要。本发明能够找到最好地分离数据的度量,并同时迫使所学的度量保持数据点之间的原始内在信息。
申请公布号 CN104537124A 申请公布日期 2015.04.22
申请号 CN201510042581.X 申请日期 2015.01.28
申请人 苏州德沃智能系统有限公司 发明人 张驰;付彦伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种用于多视图视频摘要的多视图度量学习方法,其包括以下步骤:(1)将视频记录分解成帧的集合,表示为X<sup>(1)</sup>,…,X<sup>(K</sup><sup>)</sup> ,其中<img file="252176dest_path_image001.GIF" wi="280" he="30" />,是表示第k视图的n个帧的d<sub>k</sub>维度特征, R表示实数, d<sub>k</sub>表示第k个视图空间的维数,n表示帧数;(2)根据处于X<sup>(1)</sup>,…,X<sup>(K</sup><sup>)</sup> 中的信息,学习统一化的度量空间X,其中<img file="581526dest_path_image002.GIF" wi="84" he="22" />, d表示映射后空间的维数;(3)执行在X上的聚类,使用聚类的中心作为代表,表示成<img file="842743dest_path_image003.GIF" wi="352" he="29" />, F表示摘要的集合,i<sub>1</sub>…i<sub>C</sub>表示一帧的ID;(4)对每个f<sub>ic</sub>从K个帧中选出一个和它对应的帧,并输出这些帧作为最后摘要;其中,在执行学习的步骤中,寻找统一的坐标矩阵<img file="308360dest_path_image004.GIF" wi="236" he="26" />,使其最小化<img file="691937dest_path_image005.GIF" wi="404" he="33" />,其中,R<sub>emp</sub>(X), R<sub>struct</sub>(X), R<sub>diff</sub>(X)分别是X的经验损失、结构损失以及不一致损失;γ<sub>1</sub>, γ<sub>2</sub>是控制目标之间平衡的参数;并且经验损失R<sub>emp</sub>(X)为0;结构损失R<sub>struct</sub>(X)为<img file="508583dest_path_image006.GIF" wi="352" he="60" />,其中G<sub>X</sub>是度量X的相似性变换,<img file="307912dest_path_image007.GIF" wi="18" he="25" />是归一化拉普拉斯算子, λ<sub>i</sub>是<img file="893614dest_path_image008.GIF" wi="50" he="21" />的本征值,c表示预定义的类的个数;不一致损失R<sub>diff</sub>(X)为<img file="385775dest_path_image009.GIF" wi="367" he="46" />,其中tr是迹。
地址 215300 江苏省苏州市昆山市开发区中小企业园风琴路108号6号厂房