发明名称 一种感兴趣区域提取方法
摘要 本发明公开了一种感兴趣区域提取方法,具体包括以下步骤:步骤1、对原图像进行预处理,步骤2、对原图像计算显著图,步骤3、用分水岭分割算法对原图像进行分割,步骤4、根据显著图和分割结果,计算各个区域的感兴趣度,步骤5、进行感兴趣区域检测。本发明能自动寻找定位图像中的感兴趣区域,采用了模拟人类注意力机制的Itti模型,找到的感兴趣区域与人的主观感觉基本吻合。相对于人工标记感兴趣区域,本发明更快速也更准确。
申请公布号 CN102567731A 申请公布日期 2012.07.11
申请号 CN201110400558.5 申请日期 2011.12.06
申请人 北京航空航天大学 发明人 牛建伟;周成玉;童超
分类号 G06K9/46(2006.01)I 主分类号 G06K9/46(2006.01)I
代理机构 北京永创新实专利事务所 11121 代理人 赵文利
主权项 1.一种感兴趣区域提取方法,其特征在于,包括以下几个步骤:步骤1:对原图像进行预处理;具体的预处理步骤如下:步骤1.1:计算出图像中每个像素点(x,y)的像素值s<sub>i</sub>,其中,i为像素点下标;步骤1.2:假设图像中的像素点的个数为N,计算出整幅图像的像素均值m:<maths num="0001"><![CDATA[<math><mrow><mi>m</mi><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>s</mi><mi>i</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中:N表示图像的总像素个数,s<sub>i</sub>表示第i个像素点的灰度值;步骤1.3:根据均值m和像素点(x,y)的像素值s<sub>i</sub>,均衡出图像中每个像素点与其均值的偏离程度:w<sub>i</sub>=‖s<sub>i</sub>-m‖<sup>2</sup>                            (2)步骤1.4:设定参数K,当图像像素值与平均值的偏离程度w<sub>i</sub>小于K时,就在它邻域的像素值上加K;如果偏离程度w<sub>i</sub>大于或等于K,它邻域点的像素值等于像素点的像素值;步骤2:对原图像计算显著图;首先将预处理后的图像进行滤波;然后进行颜色空间转换,将滤波后的图像由RGB颜色空间转换到相应的HIS颜色空间;对原图像计算显著图,计算像素x的色调全局对比值得公式如下:<maths num="0002"><![CDATA[<math><mrow><msub><mi>S</mi><mi>h</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><msub><mi>V</mi><mi>h</mi></msub><mo>=</mo><msub><mi>V</mi><mi>h</mi></msub><mi>min</mi></mrow><mrow><msub><mi>V</mi><mi>h</mi></msub><mi>max</mi></mrow></munderover><mrow><mo>(</mo><mo>|</mo><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>V</mi><mi>h</mi></msub><mo>|</mo><mo>&CenterDot;</mo><msub><mi>hist</mi><mi>h</mi></msub><mrow><mo>(</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><msub><mi>S</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><msub><mi>V</mi><mi>s</mi></msub><mo>=</mo><msub><mi>V</mi><mi>s</mi></msub><mi>min</mi></mrow><mrow><msub><mi>V</mi><mi>s</mi></msub><mi>max</mi></mrow></munderover><mrow><mo>(</mo><mo>|</mo><mi>Sue</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>V</mi><mi>s</mi></msub><mo>|</mo><mo>&CenterDot;</mo><msub><mi>hist</mi><mi>s</mi></msub><mrow><mo>(</mo><msub><mi>v</mi><mi>s</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><msub><mi>S</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><msub><mi>V</mi><mi>i</mi></msub><mo>=</mo><msub><mi>V</mi><mi>i</mi></msub><mi>min</mi></mrow><mrow><msub><mi>V</mi><mi>i</mi></msub><mi>max</mi></mrow></munderover><mrow><mo>(</mo><mo>|</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>V</mi><mi>i</mi></msub><mo>|</mo><mo>&CenterDot;</mo><msub><mi>hist</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0005"><![CDATA[<math><mrow><msub><mi>S</mi><mi>x</mi></msub><mo>=</mo><msqrt><msub><mi>S</mi><mi>h</mi></msub><msup><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msub><mi>S</mi><mi>s</mi></msub><msup><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msub><mi>S</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中:公式(4)中,S<sub>h</sub>(x)表示像素x的h分量的显著度,V<sub>h</sub> min表示图像中h分量的最小值,V<sub>h</sub> max表示像素x的h分量的最大值,hist<sub>h</sub>表示图像中h分量的直方图统计结果,公式(5)中,S<sub>s</sub>(x)表示像素x的s分量的显著度,V<sub>s</sub> min表示图像中s分量的最小值,V<sub>s</sub> max表示像素x的s分量的最大值,hist<sub>s</sub>表示图像s分量的直方图统计结果,公式(6)中,S<sub>i</sub>(x)表示像素x的h分量的显著度,V<sub>i</sub> min表示图像中i分量的最小值,V<sub>i</sub> max表示像素x的i分量的最大值,hist<sub>i</sub>表示图像i分量的直方图统计结果;公式(7)中,用上述三个分量显著度的综合结果作为整体的显著度,利用式(7)获取图像中每个像素点显著性;步骤3:用分水岭分割算法对原图像进行分割;具体过程如下:M<sub>1</sub>、M<sub>2</sub>、…M<sub>R</sub>表示图像g(x,y)的局部最小值点的坐标集合,C(M<sub>i</sub>)为位于与局部最小值M<sub>i</sub>相联系的汇水盆地内点的坐标的集合;min和max代表g(x,y)的最小值和最大值;T[n]表示坐标(s,t)的集合,其中g(s,t)<n,即:<img file="FDA0000116460020000021.GIF" wi="1320" he="62" />T[n]是g(x,y)中的点的坐标集合,集合中的点均位于平面g(x,y)=n的下方;C<sub>n</sub>(M<sub>i</sub>)表示汇水盆地中点的坐标集合;C<sub>n</sub>(M<sub>i</sub>)是由下式给出的二值图像:C<sub>n</sub>(M<sub>i</sub>)=C(M<sub>i</sub>)∩T[n]                       (9)其中,C<sub>n</sub>(M<sub>i</sub>)表示C(M<sub>i</sub>)与T[n]的交集,即,如果(x,y)∈C(M<sub>i</sub>)且(x,y)∈T[n],则在位置(x,y)有C<sub>n</sub>(M<sub>i</sub>)=1,否则,C<sub>n</sub>(M<sub>i</sub>)=0;C[n]表示在第n个阶段汇水盆地被水淹没的部分的合集:<maths num="0006"><![CDATA[<math><mrow><mi>c</mi><mrow><mo>[</mo><mi>n</mi><mo>]</mo></mrow><mo>=</mo><munderover><mrow><mi></mi><mo>&cup;</mo></mrow><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><msub><mi>C</mi><mi>n</mi></msub><mrow><mo>(</mo><msub><mi>M</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,R为局部最小值的总个数;然后令C[max+1]为所有汇水盆地的合集:<maths num="0007"><![CDATA[<math><mrow><mi>C</mi><mrow><mo>[</mo><mi>max</mi><mo>+</mo><mn>1</mn><mo>]</mo></mrow><mo>=</mo><munderover><mrow><mi></mi><mo>&cup;</mo></mrow><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><mi>C</mi><mrow><mo>(</mo><msub><mi>M</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,max为g(x,y)的最大值,即图像中出现的最大像素值;找寻分水线的算法开始时设定C[min+1]=T[min+1];然后算法进入递归调用,假设在第n步时,已经构造了C[n-1];根据C[n-1]求得C[n]的过程如下:令Q代表T[n]中联通分量的集合;然后,对于每个联通分量q∈Q[n],有下列三种可能性:(a)q∩C[n-1]为空;(b)q∩C[n-1]包含C[n-1]中的一个联通分量;(c)q∩C[n-1]包含C[n-1]多余一个的联通分量;当遇到一个最新的最小值时符合条件(a),则将q并入C[n-1]构成C[n];当q位于某些局部最小值构成的汇水盆地中时,符合条件(b),此时将q合并入C[n-1]构成C[n];当遇到全部或部分分离两个或更多汇水盆地的山脊线的时候,符合条件(c);步骤4:根据显著图和分割结果,计算各个区域的感兴趣度;首先将显著图的大小按比例收缩成与原图像一样的大小,计算各个区域的感兴趣度:<maths num="0008"><![CDATA[<math><mrow><mi>Interest</mi><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>&gamma;</mi><mn>1</mn></msub><mo>&times;</mo><mfrac><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>Num</mi><mrow><mo>(</mo><mi>R</mi><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><msub><mi>&gamma;</mi><mn>2</mn></msub><mo>&times;</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></munderover><msub><mi>r</mi><mi>j</mi></msub></mrow><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,γ<sub>1</sub>+γ<sub>2</sub>=1,分别代表区域面积和平均感兴趣度的权值系数,Num(R<sub>i</sub>)和Num(R)分别带别区域i和整体区域包含的像素点数目,r<sub>j</sub>表示区域内某一点的感兴趣度;步骤5:进行感兴趣区域检测;感兴趣区域检测包括图像分割和兴趣度量两个部分:区域检测部分用梯度分水岭变换分割图像,梯度G(x,y)描述了对象灰度变化,表示为<maths num="0009"><![CDATA[<math><mrow><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msqrt><msup><mrow><mo>(</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>*</mo><msub><mi>G</mi><mi>x</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>*</mo><msub><mi>G</mi><mi>y</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中:I(x,y)是灰度图,G<sub>x</sub>,G<sub>y</sub>是sobel边缘掩模且<img file="FDA0000116460020000032.GIF" wi="211" he="72" />首先根据图像梯度将图像分割成若干区域,然后对梯度图像进行分水岭标记产生标记矩阵Lrgb,最后用注意焦点选择注意区域产生mask掩码图;兴趣度量部分采用视觉注意机制建设兴趣度,选取分水岭分割结果,使用Itti注意力模型计算注意焦点度量区域的兴趣度,特征显著性通过计算图像区域中心和周边的高斯差分采样得到,公式为:<maths num="0010"><![CDATA[<math><mrow><mi>DOG</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>2</mn><msubsup><mi>&pi;&sigma;</mi><mi>c</mi><mn>2</mn></msubsup></mrow></mfrac><mi>exp</mi><mo>|</mo><mo>-</mo><mfrac><mrow><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>y</mi><mn>2</mn></msup></mrow><mrow><mn>2</mn><msubsup><mi>&sigma;</mi><mi>c</mi><mn>2</mn></msubsup></mrow></mfrac><mo>|</mo><mo>-</mo><mfrac><mn>1</mn><mrow><mn>2</mn><msubsup><mi>&pi;&sigma;</mi><mi>s</mi><mn>2</mn></msubsup></mrow></mfrac><mi>exp</mi><mo>|</mo><mo>-</mo><mfrac><mrow><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>y</mi><mn>2</mn></msup></mrow><mrow><mn>2</mn><msubsup><mi>&sigma;</mi><mi>s</mi><mn>2</mn></msubsup></mrow></mfrac><mo>|</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,(x,y)表示图像的像素点坐标,式子(14)整体上是一个双高斯差模型的表示,σ<sub>c</sub>和σ<sub>s</sub>分别是模型的参数;用式子(14)分别对亮度特征I,颜色特征图C和方向特征图O求局部分量的显著性,最后,整体的显著图S是亮度特征图I、颜色特征图C和方向特征图O的组合,公式为:S=w<sub>i</sub>×N(I)+w<sub>c</sub>×N(C)+w<sub>o</sub>×N(O)                   (15)式中,N(.)是归一化因子,即将个分量值约束在[0,1]区间内,w<sub>i</sub>,w<sub>c</sub>和w<sub>o</sub>分别是各分量的特征权值,且w<sub>i</sub>+w<sub>c</sub>+w<sub>o</sub>=1;得到显著图S后,下一步需要找到显著图中的注意焦点,注意焦点的选择与转移是通过胜者为王的神经网络方法得到,公式为:<maths num="0011"><![CDATA[<math><mrow><mi>V</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mi>&delta;t</mi><mo>)</mo></mrow><mo>=</mo><mo>[</mo><mn>1</mn><mo>-</mo><mfrac><mi>&delta;t</mi><mi>CR</mi></mfrac><mo>]</mo><mi>V</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>+</mo><mfrac><mi>&delta;t</mi><mi>C</mi></mfrac><mi>I</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>16</mn><mo>)</mo></mrow></mrow></math>]]></maths>式中,C表示电容,R是电阻,V为模电压,上式表示已知t时刻的输出电压V(t)和输入电流I(t)在时间δt后产生的模电压V(t+δt),经过一段时间,产生的电压积分发放;针对图像选取注意焦点时,将显著图看成一个二维的积分发放神经元阵列,神经元的输入电流对应显著图中像素点的值;然后将显著图中的每个神经元的电影通过电导转换成WTA网络中神经元的输入电流;WTA网络也是也该二维的积分发放神经元镇刘,起神经元的时间常量比显著图中神经元的时间常量小,电位上升到比显著图中的神经元快;这样,WTA网络中的神经元总是比显著图中的神经元先产生发放,最先产生发放的神经元就对应于显著图中显著值最大的神经元,即注意焦点;在注意焦点转移前,需要选取下一个注意焦点,用一幅返回抑制图来抑制当前区域,使注意力转向下一个区域;在进行第k次注意焦点转移时,在第k幅返回抑制图IR<sup>k</sup>中,将属于第(k-1)个显著区域内地像素值均置为0,其余的位置处的像素值相对于第(k-1)幅返回抑制图IR<sup>k-1</sup>不变,如下式:IR<sup>0</sup>(x,y)=1<img file="FDA0000116460020000041.GIF" wi="1121" he="141" />式中,R<sup>k</sup>为第k个显著区域:(x,y)为坐标点;IR<sup>k</sup>(x,y)表示选取第k个注意焦点时,第k幅返回抑制图中坐标点(x,y)的值;最后,根据找到的注意焦点和步骤4计算的区域感兴趣度公共确定图像的感兴趣区域。
地址 100191 北京市海淀区学院路37号