发明名称 一种基于超图的图像混合摘要生成方法
摘要 本发明提供了一种基于超图的图像混合摘要生成方法,具体包括:步骤1:输入原始图像;步骤2:输入标签列表;步骤3:抽取视觉特征;步骤4:建立超图;步骤5:超图分割;步骤6:选取混合摘要。本发明使用的超图模型,不仅可以利用图像与图像、标签与标签之间的同质关系,同时还可以利用图像与标签之间的异质关系;本发明提出的选取图像摘要和标签摘要的方法,同时考虑了语义和视觉的代表性,选取的图像摘要和标签摘要能够较好地代表所属分组。
申请公布号 CN103020120B 申请公布日期 2016.07.06
申请号 CN201210464502.0 申请日期 2012.11.16
申请人 南京理工大学 发明人 唐金辉;李旻先
分类号 G06F17/30(2006.01)I;G06T11/60(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京理工大学专利中心 32203 代理人 朱显国
主权项 一种基于超图的图像混合摘要生成方法,其特征在于,包括以下步骤:步骤1、输入N张原始图像,每一张原始图像应满足以下条件:附带的标签个数不少于1个;步骤2、输入标签列表:2.1)输入原始图像的标签列表:每一张原始图像附带的标签的集合,称为该张原始图像的标签列表;2.2)从所有原始图像的标签列表中统计出独立标签集合L={l<sub>1</sub>,l<sub>2</sub>,...,l<sub>j</sub>,...,l<sub>M</sub>},其中独立标签集合L中任意两个标签l都不重复,M为独立标签的个数;步骤3、抽取原始图像的视觉特征集合:抽取原始图像的视觉特征集合<img file="FDA0000988082250000011.GIF" wi="70" he="55" /><img file="FDA0000988082250000012.GIF" wi="1081" he="86" />其中k表示k种视觉特征,<img file="FDA0000988082250000013.GIF" wi="61" he="54" />表示第i张图像的第z种视觉特征;步骤4、建立超图,建立超图的过程包括以下两个步骤:4.1)建立超图的顶点集合V,顶点集合V包括V<sup>1</sup>,V<sup>2</sup>:V<sup>1</sup>表示第1种类型的顶点即原始图像的视觉特征集合<img file="FDA0000988082250000014.GIF" wi="73" he="54" />V<sup>2</sup>表示第2种类型的顶点即原始图像的独立标签集合L;4.2)建立超图的超边集合E,超边集合E包括E<sup>1</sup>,E<sup>2</sup>,E<sup>3</sup>:E<sup>1</sup>表示第1种超边,连接的是V<sup>1</sup>类型的顶点;E<sup>2</sup>表示第2种超边,连接的是V<sup>2</sup>类型的顶点;E<sup>3</sup>表示第3种超边,连接的是V<sup>1</sup>和V<sup>2</sup>类型的顶点;所述的E<sup>1</sup>,E<sup>2</sup>,E<sup>3</sup>分别定义如下:1)<img file="FDA0000988082250000015.GIF" wi="501" he="85" />超边<img file="FDA0000988082250000016.GIF" wi="42" he="70" />定义为<img file="FDA0000988082250000017.GIF" wi="516" he="86" />其中,<maths num="0001"><math><![CDATA[<mrow><msubsup><mi>e</mi><mrow><mi>i</mi><mi>x</mi></mrow><mn>1</mn></msubsup><msubsup><mo>|</mo><mrow><mi>x</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mn>1</mn><mo>,</mo></mrow></mtd><mtd><mrow><mo>|</mo><mo>|</mo><msub><mi>F</mi><mi>i</mi></msub><mo>-</mo><msub><mi>F</mi><mi>x</mi></msub><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub><mo>&GreaterEqual;</mo><msup><mi>TH</mi><mn>1</mn></msup></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mo>|</mo><mo>|</mo><msub><mi>F</mi><mi>i</mi></msub><mo>-</mo><msub><mi>F</mi><mi>x</mi></msub><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub><mo>&lt;</mo><msup><mi>TH</mi><mn>1</mn></msup></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000988082250000018.GIF" wi="726" he="166" /></maths>TH<sup>1</sup>表示阈值,||·||<sub>2</sub>表示2‑范数;<img file="FDA0000988082250000019.GIF" wi="38" he="63" />的权重<img file="FDA00009880822500000110.GIF" wi="51" he="63" />定义为:<maths num="0002"><math><![CDATA[<mrow><msubsup><mi>w</mi><mi>i</mi><mn>1</mn></msubsup><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>x</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mrow><mo>(</mo><msubsup><mi>e</mi><mrow><mi>i</mi><mi>x</mi></mrow><mn>1</mn></msubsup><mo>&times;</mo><mo>|</mo><mo>|</mo><msub><mi>F</mi><mi>i</mi></msub><mo>-</mo><msub><mi>F</mi><mi>x</mi></msub><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA00009880822500000111.GIF" wi="598" he="143" /></maths>2)<img file="FDA00009880822500000112.GIF" wi="517" he="87" />超边<img file="FDA00009880822500000113.GIF" wi="43" he="71" />定义为<img file="FDA00009880822500000114.GIF" wi="555" he="87" />其中,<maths num="0003"><math><![CDATA[<mrow><msubsup><mi>e</mi><mrow><mi>j</mi><mi>y</mi></mrow><mn>2</mn></msubsup><msubsup><mo>|</mo><mrow><mi>y</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></msubsup><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mn>1</mn><mo>,</mo></mrow></mtd><mtd><mrow><msub><mi>d</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><mo>&GreaterEqual;</mo><msup><mi>TH</mi><mn>2</mn></msup></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><msub><mi>d</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><mo>&lt;</mo><msup><mi>TH</mi><mn>2</mn></msup></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000988082250000021.GIF" wi="597" he="174" /></maths>TH<sup>2</sup>表示阈值,d<sub>jy</sub>表示标签l<sub>j</sub>和标签l<sub>y</sub>之间的关联程度,定义为:<maths num="0004"><math><![CDATA[<mrow><msub><mi>d</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>max</mi><mrow><mo>(</mo><mrow><mi>log</mi><mi> </mi><mi>f</mi><mrow><mo>(</mo><msub><mi>l</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>,</mo><mi>log</mi><mi> </mi><mi>f</mi><mrow><mo>(</mo><msub><mi>l</mi><mi>y</mi></msub><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mo>-</mo><mi>log</mi><mi> </mi><mi>f</mi><mrow><mo>(</mo><mrow><msub><mi>l</mi><mi>j</mi></msub><mo>,</mo><msub><mi>l</mi><mi>y</mi></msub></mrow><mo>)</mo></mrow></mrow><mrow><mi>log</mi><mi> </mi><mi>N</mi><mo>-</mo><mi>min</mi><mrow><mo>(</mo><mrow><mi>log</mi><mi> </mi><mi>f</mi><mrow><mo>(</mo><msub><mi>l</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>,</mo><mi>log</mi><mi> </mi><mi>f</mi><mrow><mo>(</mo><msub><mi>l</mi><mi>y</mi></msub><mo>)</mo></mrow></mrow><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000988082250000022.GIF" wi="878" he="142" /></maths>f(l<sub>j</sub>)和f(l<sub>y</sub>)表示N张原始图像中分别包含标签l<sub>j</sub>和标签l<sub>y</sub>的图像数量,f(l<sub>j</sub>,l<sub>y</sub>)表示N张原始图像中同时包括标签l<sub>j</sub>和标签l<sub>y</sub>的图像数量;<img file="FDA0000988082250000023.GIF" wi="53" he="77" />的权重<img file="FDA0000988082250000024.GIF" wi="57" he="71" />定义为:<maths num="0005"><math><![CDATA[<mrow><msubsup><mi>w</mi><mi>j</mi><mn>2</mn></msubsup><mo>=</mo><mfrac><mn>1</mn><mi>M</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>y</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msubsup><mi>e</mi><mrow><mi>j</mi><mi>y</mi></mrow><mn>2</mn></msubsup><mo>&times;</mo><msub><mi>d</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub></mrow>]]></math><img file="FDA0000988082250000025.GIF" wi="422" he="148" /></maths>3)<img file="FDA0000988082250000026.GIF" wi="500" he="87" />超边<img file="FDA0000988082250000027.GIF" wi="43" he="62" />定义为<img file="FDA0000988082250000028.GIF" wi="524" he="79" />其中<img file="FDA0000988082250000029.GIF" wi="1206" he="142" /><img file="FDA00009880822500000210.GIF" wi="45" he="62" />的权重<img file="FDA00009880822500000211.GIF" wi="54" he="62" />定义为:<img file="FDA00009880822500000212.GIF" wi="146" he="62" />步骤5、使用超图谱分解技术对超图的顶点集合V进行分割,将超图的顶点集合V分割成若干组;步骤6、选取摘要,选取摘要的过程包括以下两个步骤:6.1)在每一组中选取m个V<sup>2</sup>类型的顶点对应的独立标签,作为该组的标签摘要集合T;6.2)在每一组中选取n个V<sup>1</sup>类型的顶点对应的原始图像,作为该组的图像摘要集合I。
地址 210094 江苏省南京市孝陵卫200号