主权项 |
一种基于双空间学习的跨媒体检索方法,其特征在于,该方法包括以下步骤:步骤S1,收集不同模态的多媒体数据样本,建立跨媒体检索知识数据库,并将所述数据库分为训练集和测试集;步骤S2,提取所述数据库中不同模态多媒体数据样本的特征向量;步骤S3,基于所述训练集中的不同模态数据的特征向量得到与所述不同模态分别对应的映射矩阵;步骤S4,根据所述测试集中多媒体数据样本的模态类别,利用所述步骤S3得到的映射矩阵将它们映射到同一空间;步骤S5,将映射到同一空间后的测试集中同一模态类别的多媒体数据作为查询集,另一模态类别的多媒体数据作为目标集;步骤S6,对于所述查询集中的一个多媒体数据,根据多媒体数据之间的相似度,得到所述目标集中与它最为相似的多媒体数据,从而得到跨媒体检索结果;所述步骤S3进一步包括以下步骤:步骤S31,基于所述训练集中不同模态数据的特征向量建立目标函数;步骤S32,求解所述目标函数得到与所述不同模态分别对应的映射矩阵;所述目标函数为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><munder><mi>min</mi><mrow><msub><mi>U</mi><mi>a</mi></msub><mo>,</mo><msub><mi>U</mi><mi>b</mi></msub></mrow></munder><mfrac><mn>1</mn><mn>2</mn></mfrac><mrow><mo>(</mo><msubsup><mrow><mo>|</mo><mo>|</mo><msubsup><mi>X</mi><mi>a</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>a</mi></msub><mo>-</mo><mi>Y</mi><mo>|</mo><mo>|</mo></mrow><mi>F</mi><mn>2</mn></msubsup><mo>+</mo><msubsup><mrow><mo>|</mo><mo>|</mo><msubsup><mi>X</mi><mi>b</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>b</mi></msub><mo>-</mo><mi>Y</mi><mo>|</mo><mo>|</mo></mrow><mi>F</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>+</mo><msub><mi>λ</mi><mn>1</mn></msub><mrow><mo>(</mo><msub><mrow><mo>|</mo><mo>|</mo><msub><mi>U</mi><mi>a</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>21</mn></msub><mo>+</mo><msub><mrow><mo>|</mo><mo>|</mo><msub><mi>U</mi><mi>b</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>21</mn></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>λ</mi><mn>2</mn></msub><msub><mrow><mo>|</mo><mo>|</mo><mo>[</mo><msubsup><mi>X</mi><mi>b</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>a</mi></msub><msubsup><mi>X</mi><mi>b</mi><mi>T</mi></msubsup><msub><mi>U</mi><mi>b</mi></msub><mo>]</mo><mo>|</mo><mo>|</mo></mrow><mo>*</mo></msub><mo>,</mo></mrow>]]></math><img file="FDA0000724679510000011.GIF" wi="1572" he="117" /></maths>其中,U<sub>a</sub>和U<sub>b</sub>为与双模态分别对应的两个映射矩阵,Y为类别标签矩阵,λ<sub>1</sub>和λ<sub>2</sub>均为待定参数,||·||<sub>F</sub>为求取F‑范数操作,||·||<sub>21</sub>为求取行向量二范数和操作,||·||<sub>*</sub>为求取迹范数操作,<img file="FDA0000724679510000012.GIF" wi="540" he="76" />为所述训练集中文本多媒体数据的特征向量组成的矩阵,d1为特征向量的维数,n为特征向量的个数,a表示模态类别;<img file="FDA0000724679510000013.GIF" wi="542" he="86" />为所述训练集中图像多媒体数据的特征向量组成的矩阵,d2为特征向量的维数,n为特征向量的个数,b表示模态类别。 |