发明名称 一种基于相互学的视频数据检索方法
摘要 本发明涉及一种基于相互学的视频数据检索方法,其特征在于:计算不同种类视频数据特征的相似性矩阵,并利用相似性矩阵计算拉普拉斯矩阵;计算不同种类视频数据拉普拉斯矩阵的特征值和特征向量,以拉普拉斯矩阵中前M个最大特征值所对应的特征向量;计算不同种类视频数据特征向量的相似性矩阵,将特征向量的相似性矩阵的对应元素相乘得到学矩阵;将学矩阵和每种特征的相似性矩阵的对应元素相乘,得到学后的相似性矩阵;利用学后的相似性矩阵对视频数据进行排序,统计前若干个排序后的视频数据中与查询目标视频数据属于同一类别的视频数据数量,得到相应的检索准确率。本发明方法,检索准确率比学前都有了大幅提高。
申请公布号 CN103440269A 申请公布日期 2013.12.11
申请号 CN201310332612.6 申请日期 2013.08.01
申请人 西北工业大学 发明人 韩军伟;吉祥;郭雷;胡新韬
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 王鲜凯
主权项 1.一种基于相互学习的视频数据检索方法,其特征在于步骤如下:步骤1、计算N个视频数据的特征X<sub>1</sub>,X<sub>2</sub>,...,X<sub>N</sub>的相似性矩阵W<sub>1</sub>和特征Y<sub>1</sub>,Y<sub>2</sub>,...,Y<sub>N</sub>的相似性矩阵W<sub>2</sub>:采用<maths num="0001"><![CDATA[<math><mrow><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>1</mn></msubsup><mo>=</mo><mi>exp</mi><mfrac><mrow><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>-</mo><msub><mi>X</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><mo>&times;</mo><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>-</mo><msub><mi>X</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><msup><mi>&sigma;</mi><mn>2</mn></msup></mfrac></mrow></math>]]></maths>计算得到相似性矩阵W<sub>1</sub>;采用<maths num="0002"><![CDATA[<math><mrow><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>2</mn></msubsup><mo>=</mo><mi>exp</mi><mfrac><mrow><msup><mrow><mo>(</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>Y</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><mo>&times;</mo><mrow><mo>(</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>-</mo><msub><mi>Y</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><msup><mi>&sigma;</mi><mn>2</mn></msup></mfrac></mrow></math>]]></maths>计算得到相似性矩阵W<sub>2</sub>;其中,X<sub>1</sub>,X<sub>2</sub>,...,X<sub>N</sub>表示第1、2和N个视频数据的第一种特征;Y<sub>1</sub>,Y<sub>2</sub>,...,Y<sub>N</sub>表示第1、2和N个视频数据的第二种特征;<img file="FDA00003609523300013.GIF" wi="79" he="92" />表示矩阵W<sub>1</sub>第i行第j列元素;<img file="FDA00003609523300014.GIF" wi="80" he="103" />表示矩阵W<sub>2</sub>第i行第j列元素;X<sub>i</sub>,X<sub>j</sub>表示第i个和第j个视频数据的第一种特征;Y<sub>i</sub>,Y<sub>j</sub>表示第i个和第j个视频数据的第二种特征;exp表示取指数;i,j=1,2,...,N;N>0;σ>0,为常数;上标T表示向量转置;步骤2:利用<img file="FDA00003609523300015.GIF" wi="364" he="79" />计算W<sub>1</sub>的拉普拉斯矩阵L<sub>1</sub>;利用<img file="FDA00003609523300016.GIF" wi="370" he="79" />计算W<sub>2</sub>的拉普拉斯矩阵L<sub>2</sub>;其中,D<sub>1</sub>表示对角线矩阵,其元素<maths num="0003"><![CDATA[<math><mrow><msubsup><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>1</mn></msubsup><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><munderover><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>t</mi></mrow><mn>1</mn></msubsup></mtd><mtd><mi>i</mi><mo>=</mo><mi>j</mi></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>t=1,2,...,N;<img file="FDA00003609523300018.GIF" wi="85" he="94" />表示矩阵W<sub>1</sub>的第i行第t列的元素;D<sub>2</sub>表示对角线矩阵,其元素<maths num="0004"><![CDATA[<math><mrow><msubsup><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>2</mn></msubsup><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><munderover><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msubsup><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>t</mi></mrow><mn>2</mn></msubsup></mtd><mtd><mi>i</mi><mo>=</mo><mi>j</mi></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>t=1,2,...,N;<img file="FDA000036095233000110.GIF" wi="102" he="105" />表示矩阵W<sub>2</sub>的第i行第t列的元素;步骤3:计算拉普拉斯矩阵L<sub>1</sub>和L<sub>2</sub>的特征值和特征向量,然后分别选取前M个最大特征值所对应的特征向量U<sub>1</sub>,U<sub>2</sub>,...,U<sub>M</sub>和V<sub>1</sub>,V<sub>2</sub>,...,V<sub>M</sub>;其中,M≥1表示常数;U<sub>1</sub>,U<sub>2</sub>,...,U<sub>M</sub>表示属于L<sub>1</sub>的大小为N×1的特征向量;V<sub>1</sub>,V<sub>2</sub>,...,V<sub>M</sub>表示属于L<sub>2</sub>的大小为N×1的特征向量;步骤4:利用特征向量U<sub>1</sub>,U<sub>2</sub>,...,U<sub>M</sub>和V<sub>1</sub>,V<sub>2</sub>,...,V<sub>M</sub>构造矩阵P=[U<sub>1</sub> U<sub>2</sub>...U<sub>M</sub>]和Q=[V<sub>1</sub> V<sub>2</sub>...V<sub>M</sub>];计算[K<sub>1</sub> K<sub>2</sub>...K<sub>N</sub>]<sup>T</sup>的相似性矩阵S<sub>1</sub>和[L<sub>1</sub> L<sub>2</sub>...L<sub>N</sub>]<sup>T</sup>的相似性矩阵S<sub>2</sub>,S<sub>1</sub>的元素计算公式为<maths num="0005"><![CDATA[<math><mrow><msubsup><mi>s</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>1</mn></msubsup><mo>=</mo><mi>exp</mi><mfrac><mrow><msup><mrow><mo>(</mo><msub><mi>K</mi><mi>i</mi></msub><mo>-</mo><msub><mi>K</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><mo>&times;</mo><mrow><mo>(</mo><msub><mi>K</mi><mi>i</mi></msub><mo>-</mo><msub><mi>K</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><msup><mi>&sigma;</mi><mn>2</mn></msup></mfrac><mo>;</mo></mrow></math>]]></maths>S<sub>2</sub>的元素计算公式为<maths num="0006"><![CDATA[<math><mrow><msubsup><mi>s</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>2</mn></msubsup><mo>=</mo><mi>exp</mi><mfrac><mrow><msup><mrow><mo>(</mo><msub><mi>L</mi><mi>i</mi></msub><mo>-</mo><msub><mi>L</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><mo>&times;</mo><mrow><mo>(</mo><msub><mi>L</mi><mi>i</mi></msub><mo>-</mo><msub><mi>L</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><msup><mi>&sigma;</mi><mn>2</mn></msup></mfrac><mo>;</mo></mrow></math>]]></maths>其中,K<sub>1</sub>,K<sub>2</sub>,...,K<sub>N</sub>表示矩阵P的第1,2,...,N行元素;L<sub>1</sub>,L<sub>2</sub>,...,L<sub>N</sub>表示矩阵Q的第1,2,...,N行元素;步骤5:将相似性矩阵S<sub>1</sub>和S<sub>2</sub>的对应元素相乘得到学习矩阵S;步骤6:将相似性矩阵W<sub>1</sub>和学习矩阵S的对应元素相乘得到学习后的相似性矩阵E<sub>1</sub>,将相似性矩阵W<sub>2</sub>和学习矩阵S的对应元素相乘得到学习后的相似性矩阵E<sub>2</sub>;步骤7:利用公式r=β(I-λE<sub>1</sub>)<sup>-1</sup>T和f=β(I-λE<sub>2</sub>)<sup>-1</sup>T计算N个视频数据两种特征学习后的分数向量r和f,并将N个视频数据按照分数大小从高到低排列,得到排序后的视频数据;其中,r=(r<sub>1</sub>,r<sub>2</sub>,...,r<sub>N</sub>)表示N个视频数据的第一种特征进行检索后的得分向量,r<sub>1</sub>,r<sub>2</sub>,...,r<sub>N</sub>表示第1,2,...,N个视频数据的得分;f=(f<sub>1</sub>,f<sub>2</sub>,...,f<sub>N</sub>)表示N个视频数据的第二种特征进行检索后的得分向量;f<sub>1</sub>,f<sub>2</sub>,...,f<sub>N</sub>表示第1,2,...,N个视频数据的得分;β=1-λ表示常数;λ>0表示常数;T=[t<sub>1</sub>,...,t<sub>N</sub>]<sup>T</sup>表示检索时的查询向量,t<sub>i</sub>=1表示第i个视频数据为查询目标视频数据,否则t<sub>i</sub>=0。
地址 710072 陕西省西安市友谊西路127号
您可能感兴趣的专利