发明名称 基于稀疏组群结构的图像标注方法
摘要 本发明公开了一种基于稀疏组群结构的图像标注方法。包括如下步骤:1)对图像数据集进行特征提取;2)对每个图像数据集选取n个数据作为训练集,其余作为测试集,使每个标注单词都出现在训练集合中;3)利用稀疏组群结构对图像进行特征选择;4)利用图像标注单词之间的关系进一步优化标注结果。本发明充分利用了图像异构特征的组群性质来对图像特征进行筛选,利用图像标注单词之间的相关性来优化图像标注,比传统标注方法产生的标注结果更准确。
申请公布号 CN102375855B 申请公布日期 2013.09.25
申请号 CN201010262568.2 申请日期 2010.08.20
申请人 浙江大学 发明人 吴飞;庄越挺;袁莹
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 1.一种基于稀疏组群结构的图像标注方法,其特征在于包括如下步骤:1)对图像数据集进行特征提取;2)对每个图像数据集选取n个数据作为训练集,其余作为测试集,使每个标注单词都出现在训练集合中;3)利用稀疏组群结构对图像进行特征选择;4)利用图像标注单词之间的关系进一步优化标注结果;所述的对图像数据集进行特征提取的步骤为:1)对图像数据进行特征提取,特征包括全局特征和局部特征,全局特征包括颜色、纹理、形状,局部特征包括SIFT、形状上下文;2)将每幅图像用多种异构特征向量的组合来表示,即,一幅图像表示为(x<sub>i</sub>,y<sub>i</sub>)∈R<sup>p</sup>×{0,1}<sup>C</sup>,其中x<sub>i</sub>=(x<sub>i1</sub>,...,x<sub>ip</sub>)<sup>T</sup>∈R<sup>p</sup>表示图像的特征向量,p表示特征维数,y<sub>i</sub>=(y<sub>i1</sub>,...,y<sub>iC</sub>)<sup>T</sup>∈{0,1}<sup>C</sup>是相应的标注向量,C表示数据集的标注单词总数,y<sub>ij</sub>=1表示第i幅图像有第j个标注,否则,y<sub>ij</sub>=0,假设从图像数据中提取G类特征,d<sub>g</sub>表示第g类特征的维数,g∈{1,...,G},那么<img file="FSB00001053876400011.GIF" wi="221" he="131" />图像的特征向量重新表示为<maths num="0001"><![CDATA[<math><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>=</mo><msup><mrow><mo>(</mo><msubsup><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mn>1</mn></mrow><mi>T</mi></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>G</mi></mrow><mi>T</mi></msubsup><mo>)</mo></mrow><mi>T</mi></msup><mo>;</mo></mrow></math>]]></maths>所述的利用图像标注单词之间的关系进一步优化标注结果的步骤为:1)假设给定n个有标注单词的图像样例,X=(x<sub>1</sub>,x<sub>2</sub>,...,x<sub>n</sub>)∈R<sup>p×n</sup>,Y=(y<sub>x</sub>,y<sub>2</sub>,...,y<sub>n</sub>)∈R<sup>c×n</sup>,分别表示图像的特征向量和标注单词向量;2)运用典型相关分析选择向量w<sub>x</sub>和w<sub>y</sub>使X和Y之间相关性最大,即求解以下最优化问题:<maths num="0002"><![CDATA[<math><mrow><mrow><mo>(</mo><msub><mi>w</mi><mi>x</mi></msub><mo>,</mo><msub><mi>w</mi><mi>y</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mrow><msub><mi>w</mi><mi>x</mi></msub><mo>,</mo><msub><mi>w</mi><mi>y</mi></msub></mrow></munder><mo>{</mo><mi>corr</mi><mrow><mo>(</mo><msubsup><mi>w</mi><mi>x</mi><mi>T</mi></msubsup><mi>X</mi><mo>,</mo><msubsup><mi>w</mi><mi>y</mi><mi>T</mi></msubsup><mi>Y</mi><mo>)</mo></mrow><mo>}</mo></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><mi>corr</mi><mrow><mo>(</mo><msubsup><mi>w</mi><mi>x</mi><mi>T</mi></msubsup><mi>X</mi><mo>,</mo><msubsup><mi>w</mi><mi>y</mi><mi>T</mi></msubsup><mi>Y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mi>w</mi><mi>x</mi><mi>T</mi></msubsup><mi>X</mi><msup><mi>Y</mi><mi>T</mi></msup><msub><mi>w</mi><mi>y</mi></msub></mrow><msqrt><mrow><mo>(</mo><msubsup><mi>w</mi><mi>x</mi><mi>T</mi></msubsup><mi>X</mi><msup><mi>X</mi><mi>T</mi></msup><msub><mi>w</mi><mi>x</mi></msub><mo>)</mo></mrow><mrow><mo>(</mo><msubsup><mi>w</mi><mi>y</mi><mi>T</mi></msubsup><mi>Y</mi><msup><mi>Y</mi><mi>T</mi></msup><msub><mi>w</mi><mi>y</mi></msub><mo>)</mo></mrow></msqrt></mfrac></mrow></math>]]></maths>解得相关向量w<sub>x</sub>和w<sub>y</sub>;3)优化的标注结果<img file="FSB00001053876400015.GIF" wi="163" he="54" />其中<img file="FSB00001053876400016.GIF" wi="31" he="54" />是前一步通过回归模型解得的,B=T<sup>-1</sup>DT,T是一个C×C的矩阵,其中的每一行是运用典型相关分析得到的典型相关坐标,即<img file="FSB00001053876400021.GIF" wi="162" he="67" />D是一个C×C的对角矩阵D=diag(d<sub>1</sub>,d<sub>2</sub>,...,d<sub>C</sub>),其对角线上的元素通过典型相关分析以后的X和Y的协方差得到:<maths num="0004"><![CDATA[<math><mrow><msub><mi>d</mi><mi>k</mi></msub><mo>=</mo><mfrac><msubsup><mi>&rho;</mi><mi>k</mi><mn>2</mn></msubsup><mrow><msubsup><mi>&rho;</mi><mi>k</mi><mn>2</mn></msubsup><mo>+</mo><mi>&gamma;</mi><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msubsup><mi>&rho;</mi><mi>k</mi><mn>2</mn></msubsup><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>其中<maths num="0005"><![CDATA[<math><mrow><msub><mi>&rho;</mi><mi>k</mi></msub><mo>=</mo><mi>corr</mi><mrow><mo>(</mo><msubsup><mi>w</mi><mi>xk</mi><mi>T</mi></msubsup><mi>X</mi><mo>,</mo><msubsup><mi>w</mi><mi>yk</mi><mi>T</mi></msubsup><mi>Y</mi><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>k=1,2,...,C,γ=p/n。
地址 310018 浙江省杭州市西湖区浙大路38号