发明名称 一种基于联合稀疏多尺度融合的图像显著区域检测方法
摘要 本发明属于图像显著区域检测技术领域,具体公开了一种基于联合稀疏多尺度融合的图像显著区域检测方法,其步骤包括:(1)对训练图像集构造出多层高斯金字塔实现多尺度化,训练得到各个尺度下的字典;(2)对测试图像中的每一个像素点取图像块,联合稀疏求解该图像块在各个尺度下的稀疏表示系数;(3)将稀疏表示系数作为特征,进行显著性的计算;(4)融合多个尺度下的显著结果得到最终的显著图。本发明实现了提取任意给定图像中人眼感兴趣区域的目的,其优点在于:首先,多尺度操作克服了图像不同尺度下的影响;其次,联合稀疏框架非常有益于后续的显著度计算。实验表明,本方法的结果具有较好的鲁棒性,优于大多数现有方法的结果。
申请公布号 CN104392463A 申请公布日期 2015.03.04
申请号 CN201410781962.5 申请日期 2014.12.16
申请人 西安电子科技大学 发明人 张小华;焦李成;孟珂;田小林;朱虎明;马文萍;刘红英
分类号 G06T7/00(2006.01)I;G06K9/62(2006.01)I 主分类号 G06T7/00(2006.01)I
代理机构 西安吉盛专利代理有限责任公司 61108 代理人 张恒阳
主权项 一种基于联合稀疏多尺度融合的图像显著区域检测方法,其特征在于,包括以下步骤:(1)对训练图像集进行预处理,将RGB彩色图像转化为灰度图像;(2)对于训练图像集中的每一幅图像,构造其多尺度高斯金字塔,得到多尺度的训练集{T<sub>1</sub>、T<sub>2</sub>…T<sub>n</sub>},其中T<sub>i</sub>为i尺度下的图像,n为多尺度的数目;(3)对于构造好的多尺度训练集{T<sub>1</sub>、T<sub>2</sub>…T<sub>n</sub>},对各个尺度分别应用KSVD字典训练算法训练稀疏表示字典{D<sub>1</sub>、D<sub>2</sub>…D<sub>n</sub>}∈R<sup>m×k</sup>,其中D<sub>i</sub>为i尺度下的稀疏表示字典,m×k表示字典的规模,m是行数,k为列数或字典原子的个数;(4)对于输入的每一幅测试图像,按照步骤(2)的方法对它构造多尺度高斯金字塔,然后在各个尺度下分别对输入图像的每一个像素点取块并对图像块进行聚类,然后采用联合稀疏求解的框架,对于每一类图像块按下式求解该类图像块集合的稀疏表示系数,因此也就得到尺度l下每一个图像块x<sub>i</sub>的稀疏表示系数α<sub>i</sub>:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><munder><mi>min</mi><msub><mi>A</mi><mi>i</mi></msub></munder><msubsup><mrow><mo>|</mo><mo>|</mo><msub><mi>A</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>1</mn></msubsup><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>f</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msubsup><mrow><mo>|</mo><mo>|</mo><msup><mi>&alpha;</mi><mi>f</mi></msup><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>1</mn></msubsup><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><msubsup><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><mi>D</mi><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><munder><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><msub><mi>p</mi><mi>i</mi></msub></mrow></munder><msubsup><mrow><mo>|</mo><mo>|</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>-</mo><msub><mi>D&alpha;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>2</mn></msubsup><mo>&le;</mo><msub><mi>&epsiv;</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0000635078170000011.GIF" wi="1227" he="150" /></maths>其中<img file="FDA0000635078170000012.GIF" wi="738" he="131" />表示聚类后与图像块x<sub>i</sub>为一类的图像块的集合,t表示与图像块x<sub>i</sub>为一类的图像块有t个,x<sub>i,j</sub>表示集合P<sub>i</sub>中第j个与图像块x<sub>i</sub>为一类的图像块;<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>A</mi><mi>i</mi></msub><mo>=</mo><mo>[</mo><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>,</mo><msub><mi>&alpha;</mi><mrow><mi>i</mi><mo>,</mo><msub><mi>i</mi><mn>1</mn></msub></mrow></msub><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>&alpha;</mi><mrow><mi>i</mi><mo>,</mo><msub><mi>i</mi><mi>t</mi></msub></mrow></msub><mo>]</mo><mo>=</mo><mfenced open='[' close=']'><mtable><mtr><mtd><msup><mi>&alpha;</mi><mn>1</mn></msup></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd></mtr><mtr><mtd><msup><mi>&alpha;</mi><mi>k</mi></msup></mtd></mtr></mtable></mfenced><mo>&Element;</mo><msup><mi>R</mi><mrow><mi>k</mi><mo>&times;</mo><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mrow></msup></mrow>]]></math><img file="FDA0000635078170000013.GIF" wi="762" he="246" /></maths>表示图像块x<sub>i</sub>和图像块集合P<sub>i</sub>的稀疏表示系数集合,矩阵A<sub>i</sub>的行数为k,列数为t+1,α<sub>i</sub>表示图像块x<sub>i</sub>的稀疏表示系数,α<sub>i,j</sub>表示矩阵A<sub>i</sub>的第j+1列,即第j个与图像块x<sub>i</sub>为一类的图像块x<sub>i,j</sub>的稀疏表示系数,α<sup>f</sup>表示矩阵A<sub>i</sub>的第f行;联合稀疏求解得到的稀疏表示系数<img file="FDA0000635078170000014.GIF" wi="344" he="95" />的非零元素位置是相同的,D表示对应尺度l的稀疏表示字典;(5)由步骤(4)求得每一个图像块x<sub>i</sub>的稀疏表示系数α<sub>i</sub>,将其作为图像中每一个图像块x<sub>i</sub>的特征,进而使用该特征去衡量每一个图像块的显著性,图像中每个像素点i的显著性定义为以像素点i为中心的图像块与图像中其它所有块的相似性,这里使用稀疏表示系数来计算每个像素点的显著性:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>S</mi><mi>l</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msub><mi>w</mi><mi>ij</mi></msub><mo>&CenterDot;</mo><msub><mi>D</mi><mi>ij</mi></msub></mrow>]]></math><img file="FDA0000635078170000021.GIF" wi="382" he="146" /></maths>其中l∈1,...,n表示尺度;S<sub>l</sub>(x<sub>i</sub>)表示尺度l下图像块x<sub>i</sub>的显著性;L表示尺度l下图像中图像块的总个数;<img file="FDA0000635078170000022.GIF" wi="482" he="188" />表示图像块x<sub>i</sub>和x<sub>j</sub>的相似性的权值,p<sub>i</sub>和p<sub>j</sub>分别为在尺度l下以位置i和j为中心的图像块拉成的列向量,σ<sub>1</sub>为伸缩系数;<img file="FDA0000635078170000023.GIF" wi="463" he="188" />表示用图像块x<sub>i</sub>和x<sub>j</sub>对应稀疏表示系数去计算两图像块的相似性,α<sub>i</sub>和α<sub>j</sub>分别为图像块x<sub>i</sub>和x<sub>j</sub>的稀疏表示系数向量,σ<sub>2</sub>为伸缩系数;(6)重复步骤(4)、(5),计算每个尺度下的显著结果;将多尺度下的显著结果归一化并做显著性处理,对处理后的结果进行多尺度之间的融合,进而得到最终的显著结果,再选定特定的阈值,划分出检测到的显著区域。
地址 710071 陕西省西安市太白南路2号西安电子科技大学