一种感兴趣区域提取方法,申请号CN201110400558.5-传众专利搜索

发明名称	一种感兴趣区域提取方法
摘要	本发明公开了一种感兴趣区域提取方法，具体包括以下步骤：步骤1、对原图像进行预处理，步骤2、对原图像计算显著图，步骤3、用分水岭分割算法对原图像进行分割，步骤4、根据显著图和分割结果，计算各个区域的感兴趣度，步骤5、进行感兴趣区域检测。本发明能自动寻找定位图像中的感兴趣区域，采用了模拟人类注意力机制的Itti模型，找到的感兴趣区域与人的主观感觉基本吻合。相对于人工标记感兴趣区域，本发明更快速也更准确。
申请公布号	CN102567731A	申请公布日期	2012.07.11
申请号	CN201110400558.5	申请日期	2011.12.06
申请人	北京航空航天大学	发明人	牛建伟;周成玉;童超
分类号	G06K9/46(2006.01)I	主分类号	G06K9/46(2006.01)I
代理机构	北京永创新实专利事务所 11121	代理人	赵文利
主权项	1.一种感兴趣区域提取方法，其特征在于，包括以下几个步骤：步骤1：对原图像进行预处理；具体的预处理步骤如下：步骤1.1：计算出图像中每个像素点(x，y)的像素值s<sub>i</sub>，其中，i为像素点下标；步骤1.2：假设图像中的像素点的个数为N，计算出整幅图像的像素均值m：<maths num="0001"><![CDATA[<math><mrow><mi>m</mi><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>s</mi><mi>i</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中：N表示图像的总像素个数，s<sub>i</sub>表示第i个像素点的灰度值；步骤1.3：根据均值m和像素点(x，y)的像素值s<sub>i</sub>，均衡出图像中每个像素点与其均值的偏离程度：w<sub>i</sub>＝‖s<sub>i</sub>-m‖<sup>2</sup> (2)步骤1.4：设定参数K，当图像像素值与平均值的偏离程度w<sub>i</sub>小于K时，就在它邻域的像素值上加K；如果偏离程度w<sub>i</sub>大于或等于K，它邻域点的像素值等于像素点的像素值；步骤2：对原图像计算显著图；首先将预处理后的图像进行滤波；然后进行颜色空间转换，将滤波后的图像由RGB颜色空间转换到相应的HIS颜色空间；对原图像计算显著图，计算像素x的色调全局对比值得公式如下：<maths num="0002"><![CDATA[<math><mrow><msub><mi>S</mi><mi>h</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><msub><mi>V</mi><mi>h</mi></msub><mo>=</mo><msub><mi>V</mi><mi>h</mi></msub><mi>min</mi></mrow><mrow><msub><mi>V</mi><mi>h</mi></msub><mi>max</mi></mrow></munderover><mrow><mo>(</mo><mo>\|</mo><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>V</mi><mi>h</mi></msub><mo>\|</mo><mo>·</mo><msub><mi>hist</mi><mi>h</mi></msub><mrow><mo>(</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><msub><mi>S</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><msub><mi>V</mi><mi>s</mi></msub><mo>=</mo><msub><mi>V</mi><mi>s</mi></msub><mi>min</mi></mrow><mrow><msub><mi>V</mi><mi>s</mi></msub><mi>max</mi></mrow></munderover><mrow><mo>(</mo><mo>\|</mo><mi>Sue</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>V</mi><mi>s</mi></msub><mo>\|</mo><mo>·</mo><msub><mi>hist</mi><mi>s</mi></msub><mrow><mo>(</mo><msub><mi>v</mi><mi>s</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><msub><mi>S</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><msub><mi>V</mi><mi>i</mi></msub><mo>=</mo><msub><mi>V</mi><mi>i</mi></msub><mi>min</mi></mrow><mrow><msub><mi>V</mi><mi>i</mi></msub><mi>max</mi></mrow></munderover><mrow><mo>(</mo><mo>\|</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>V</mi><mi>i</mi></msub><mo>\|</mo><mo>·</mo><msub><mi>hist</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0005"><![CDATA[<math><mrow><msub><mi>S</mi><mi>x</mi></msub><mo>=</mo><msqrt><msub><mi>S</mi><mi>h</mi></msub><msup><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msub><mi>S</mi><mi>s</mi></msub><msup><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msub><mi>S</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中：公式(4)中，S<sub>h</sub>(x)表示像素x的h分量的显著度，V<sub>h</sub> min表示图像中h分量的最小值，V<sub>h</sub> max表示像素x的h分量的最大值，hist<sub>h</sub>表示图像中h分量的直方图统计结果，公式(5)中，S<sub>s</sub>(x)表示像素x的s分量的显著度，V<sub>s</sub> min表示图像中s分量的最小值，V<sub>s</sub> max表示像素x的s分量的最大值，hist<sub>s</sub>表示图像s分量的直方图统计结果，公式(6)中，S<sub>i</sub>(x)表示像素x的h分量的显著度，V<sub>i</sub> min表示图像中i分量的最小值，V<sub>i</sub> max表示像素x的i分量的最大值，hist<sub>i</sub>表示图像i分量的直方图统计结果；公式(7)中，用上述三个分量显著度的综合结果作为整体的显著度，利用式(7)获取图像中每个像素点显著性；步骤3：用分水岭分割算法对原图像进行分割；具体过程如下：M<sub>1</sub>、M<sub>2</sub>、…M<sub>R</sub>表示图像g(x，y)的局部最小值点的坐标集合，C(M<sub>i</sub>)为位于与局部最小值M<sub>i</sub>相联系的汇水盆地内点的坐标的集合；min和max代表g(x，y)的最小值和最大值；T[n]表示坐标(s，t)的集合，其中g(s，t)＜n，即：<img file="FDA0000116460020000021.GIF" wi="1320" he="62" />T[n]是g(x，y)中的点的坐标集合，集合中的点均位于平面g(x，y)＝n的下方；C<sub>n</sub>(M<sub>i</sub>)表示汇水盆地中点的坐标集合；C<sub>n</sub>(M<sub>i</sub>)是由下式给出的二值图像：C<sub>n</sub>(M<sub>i</sub>)＝C(M<sub>i</sub>)∩T[n] (9)其中，C<sub>n</sub>(M<sub>i</sub>)表示C(M<sub>i</sub>)与T[n]的交集，即，如果(x，y)∈C(M<sub>i</sub>)且(x，y)∈T[n]，则在位置(x，y)有C<sub>n</sub>(M<sub>i</sub>)＝1，否则，C<sub>n</sub>(M<sub>i</sub>)＝0；C[n]表示在第n个阶段汇水盆地被水淹没的部分的合集：<maths num="0006"><![CDATA[<math><mrow><mi>c</mi><mrow><mo>[</mo><mi>n</mi><mo>]</mo></mrow><mo>=</mo><munderover><mrow><mi></mi><mo>∪</mo></mrow><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><msub><mi>C</mi><mi>n</mi></msub><mrow><mo>(</mo><msub><mi>M</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中，R为局部最小值的总个数；然后令C[max+1]为所有汇水盆地的合集：<maths num="0007"><![CDATA[<math><mrow><mi>C</mi><mrow><mo>[</mo><mi>max</mi><mo>+</mo><mn>1</mn><mo>]</mo></mrow><mo>=</mo><munderover><mrow><mi></mi><mo>∪</mo></mrow><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><mi>C</mi><mrow><mo>(</mo><msub><mi>M</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中，max为g(x，y)的最大值，即图像中出现的最大像素值；找寻分水线的算法开始时设定C[min+1]＝T[min+1]；然后算法进入递归调用，假设在第n步时，已经构造了C[n-1]；根据C[n-1]求得C[n]的过程如下：令Q代表T[n]中联通分量的集合；然后，对于每个联通分量q∈Q[n]，有下列三种可能性：(a)q∩C[n-1]为空；(b)q∩C[n-1]包含C[n-1]中的一个联通分量；(c)q∩C[n-1]包含C[n-1]多余一个的联通分量；当遇到一个最新的最小值时符合条件(a)，则将q并入C[n-1]构成C[n]；当q位于某些局部最小值构成的汇水盆地中时，符合条件(b)，此时将q合并入C[n-1]构成C[n]；当遇到全部或部分分离两个或更多汇水盆地的山脊线的时候，符合条件(c)；步骤4：根据显著图和分割结果，计算各个区域的感兴趣度；首先将显著图的大小按比例收缩成与原图像一样的大小，计算各个区域的感兴趣度：<maths num="0008"><![CDATA[<math><mrow><mi>Interest</mi><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>γ</mi><mn>1</mn></msub><mo>×</mo><mfrac><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>Num</mi><mrow><mo>(</mo><mi>R</mi><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><msub><mi>γ</mi><mn>2</mn></msub><mo>×</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></munderover><msub><mi>r</mi><mi>j</mi></msub></mrow><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>R</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中，γ<sub>1</sub>+γ<sub>2</sub>＝1，分别代表区域面积和平均感兴趣度的权值系数，Num(R<sub>i</sub>)和Num(R)分别带别区域i和整体区域包含的像素点数目，r<sub>j</sub>表示区域内某一点的感兴趣度；步骤5：进行感兴趣区域检测；感兴趣区域检测包括图像分割和兴趣度量两个部分：区域检测部分用梯度分水岭变换分割图像，梯度G(x，y)描述了对象灰度变化，表示为<maths num="0009"><![CDATA[<math><mrow><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msqrt><msup><mrow><mo>(</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo></mo><msub><mi>G</mi><mi>x</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo></mo><msub><mi>G</mi><mi>y</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中：I(x，y)是灰度图，G<sub>x</sub>，G<sub>y</sub>是sobel边缘掩模且<img file="FDA0000116460020000032.GIF" wi="211" he="72" />首先根据图像梯度将图像分割成若干区域，然后对梯度图像进行分水岭标记产生标记矩阵Lrgb，最后用注意焦点选择注意区域产生mask掩码图；兴趣度量部分采用视觉注意机制建设兴趣度，选取分水岭分割结果，使用Itti注意力模型计算注意焦点度量区域的兴趣度，特征显著性通过计算图像区域中心和周边的高斯差分采样得到，公式为：<maths num="0010"><![CDATA[<math><mrow><mi>DOG</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>2</mn><msubsup><mi>πσ</mi><mi>c</mi><mn>2</mn></msubsup></mrow></mfrac><mi>exp</mi><mo>\|</mo><mo>-</mo><mfrac><mrow><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>y</mi><mn>2</mn></msup></mrow><mrow><mn>2</mn><msubsup><mi>σ</mi><mi>c</mi><mn>2</mn></msubsup></mrow></mfrac><mo>\|</mo><mo>-</mo><mfrac><mn>1</mn><mrow><mn>2</mn><msubsup><mi>πσ</mi><mi>s</mi><mn>2</mn></msubsup></mrow></mfrac><mi>exp</mi><mo>\|</mo><mo>-</mo><mfrac><mrow><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>y</mi><mn>2</mn></msup></mrow><mrow><mn>2</mn><msubsup><mi>σ</mi><mi>s</mi><mn>2</mn></msubsup></mrow></mfrac><mo>\|</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中，(x，y)表示图像的像素点坐标，式子(14)整体上是一个双高斯差模型的表示，σ<sub>c</sub>和σ<sub>s</sub>分别是模型的参数；用式子(14)分别对亮度特征I，颜色特征图C和方向特征图O求局部分量的显著性，最后，整体的显著图S是亮度特征图I、颜色特征图C和方向特征图O的组合，公式为：S＝w<sub>i</sub>×N(I)+w<sub>c</sub>×N(C)+w<sub>o</sub>×N(O) (15)式中，N(.)是归一化因子，即将个分量值约束在[0，1]区间内，w<sub>i</sub>，w<sub>c</sub>和w<sub>o</sub>分别是各分量的特征权值，且w<sub>i</sub>+w<sub>c</sub>+w<sub>o</sub>＝1；得到显著图S后，下一步需要找到显著图中的注意焦点，注意焦点的选择与转移是通过胜者为王的神经网络方法得到，公式为：<maths num="0011"><![CDATA[<math><mrow><mi>V</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mi>δt</mi><mo>)</mo></mrow><mo>=</mo><mo>[</mo><mn>1</mn><mo>-</mo><mfrac><mi>δt</mi><mi>CR</mi></mfrac><mo>]</mo><mi>V</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>+</mo><mfrac><mi>δt</mi><mi>C</mi></mfrac><mi>I</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>16</mn><mo>)</mo></mrow></mrow></math>]]></maths>式中，C表示电容，R是电阻，V为模电压，上式表示已知t时刻的输出电压V(t)和输入电流I(t)在时间δt后产生的模电压V(t+δt)，经过一段时间，产生的电压积分发放；针对图像选取注意焦点时，将显著图看成一个二维的积分发放神经元阵列，神经元的输入电流对应显著图中像素点的值；然后将显著图中的每个神经元的电影通过电导转换成WTA网络中神经元的输入电流；WTA网络也是也该二维的积分发放神经元镇刘，起神经元的时间常量比显著图中神经元的时间常量小，电位上升到比显著图中的神经元快；这样，WTA网络中的神经元总是比显著图中的神经元先产生发放，最先产生发放的神经元就对应于显著图中显著值最大的神经元，即注意焦点；在注意焦点转移前，需要选取下一个注意焦点，用一幅返回抑制图来抑制当前区域，使注意力转向下一个区域；在进行第k次注意焦点转移时，在第k幅返回抑制图IR<sup>k</sup>中，将属于第(k-1)个显著区域内地像素值均置为0，其余的位置处的像素值相对于第(k-1)幅返回抑制图IR<sup>k-1</sup>不变，如下式：IR<sup>0</sup>(x，y)＝1<img file="FDA0000116460020000041.GIF" wi="1121" he="141" />式中，R<sup>k</sup>为第k个显著区域：(x，y)为坐标点；IR<sup>k</sup>(x，y)表示选取第k个注意焦点时，第k幅返回抑制图中坐标点(x，y)的值；最后，根据找到的注意焦点和步骤4计算的区域感兴趣度公共确定图像的感兴趣区域。
地址	100191 北京市海淀区学院路37号