发明名称 基于双空间学的跨媒体检索方法
摘要 本发明公开了一种基于双空间学的跨媒体检索方法。该方法包括:首先提取不同模态的多媒体数据的特征,利用双空间学方法学得到两个映射矩阵,将不同模态的数据映射到同一个空间;对于测试样本集,将其分为两部分:查询数据集和目标数据集,使用学得到的映射矩阵将两个数据集的数据映射到统一空间,然后度量查询数据和目标数据之间的距离,并得到与查询数据距离最近的目标数据。本发明可以将不同模态的多媒体数据映射入统一空间进行度量,且在映射的同时进行了特征选择,提高了检索的鲁棒性和准确性,具有良好的运用前景。
申请公布号 CN103049526B 申请公布日期 2015.08.05
申请号 CN201210559081.X 申请日期 2012.12.20
申请人 中国科学院自动化研究所 发明人 王亮;谭铁牛;赫然;王开业;王威
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 宋焰琴
主权项 一种基于双空间学习的跨媒体检索方法,其特征在于,该方法包括以下步骤:步骤S1,收集不同模态的多媒体数据样本,建立跨媒体检索知识数据库,并将所述数据库分为训练集和测试集;步骤S2,提取所述数据库中不同模态多媒体数据样本的特征向量;步骤S3,基于所述训练集中的不同模态数据的特征向量得到与所述不同模态分别对应的映射矩阵;步骤S4,根据所述测试集中多媒体数据样本的模态类别,利用所述步骤S3得到的映射矩阵将它们映射到同一空间;步骤S5,将映射到同一空间后的测试集中同一模态类别的多媒体数据作为查询集,另一模态类别的多媒体数据作为目标集;步骤S6,对于所述查询集中的一个多媒体数据,根据多媒体数据之间的相似度,得到所述目标集中与它最为相似的多媒体数据,从而得到跨媒体检索结果;所述步骤S3进一步包括以下步骤:步骤S31,基于所述训练集中不同模态数据的特征向量建立目标函数;步骤S32,求解所述目标函数得到与所述不同模态分别对应的映射矩阵;所述目标函数为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><munder><mi>min</mi><mrow><msub><mi>U</mi><mi>a</mi></msub><mo>,</mo><msub><mi>U</mi><mi>b</mi></msub></mrow></munder><mfrac><mn>1</mn><mn>2</mn></mfrac><mrow><mo>(</mo><msubsup><mrow><mo>|</mo><mo>|</mo><msubsup><mi>X</mi><mi>a</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>a</mi></msub><mo>-</mo><mi>Y</mi><mo>|</mo><mo>|</mo></mrow><mi>F</mi><mn>2</mn></msubsup><mo>+</mo><msubsup><mrow><mo>|</mo><mo>|</mo><msubsup><mi>X</mi><mi>b</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>b</mi></msub><mo>-</mo><mi>Y</mi><mo>|</mo><mo>|</mo></mrow><mi>F</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>+</mo><msub><mi>&lambda;</mi><mn>1</mn></msub><mrow><mo>(</mo><msub><mrow><mo>|</mo><mo>|</mo><msub><mi>U</mi><mi>a</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>21</mn></msub><mo>+</mo><msub><mrow><mo>|</mo><mo>|</mo><msub><mi>U</mi><mi>b</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>21</mn></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>&lambda;</mi><mn>2</mn></msub><msub><mrow><mo>|</mo><mo>|</mo><mo>[</mo><msubsup><mi>X</mi><mi>b</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>a</mi></msub><msubsup><mi>X</mi><mi>b</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>b</mi></msub><mo>]</mo><mo>|</mo><mo>|</mo></mrow><mo>*</mo></msub><mo>,</mo></mrow>]]></math><img file="FDA0000724679510000011.GIF" wi="1572" he="117" /></maths>其中,U<sub>a</sub>和U<sub>b</sub>为与双模态分别对应的两个映射矩阵,Y为类别标签矩阵,λ<sub>1</sub>和λ<sub>2</sub>均为待定参数,||·||<sub>F</sub>为求取F‑范数操作,||·||<sub>21</sub>为求取行向量二范数和操作,||·||<sub>*</sub>为求取迹范数操作,<img file="FDA0000724679510000012.GIF" wi="540" he="76" />为所述训练集中文本多媒体数据的特征向量组成的矩阵,d1为特征向量的维数,n为特征向量的个数,a表示模态类别;<img file="FDA0000724679510000013.GIF" wi="542" he="86" />为所述训练集中图像多媒体数据的特征向量组成的矩阵,d2为特征向量的维数,n为特征向量的个数,b表示模态类别。
地址 100190 北京市海淀区中关村东路95号