发明名称 一种基于自适应色彩聚类的自然场景文本检测的方法
摘要 本发明提出了一种基于自适应色彩聚类的自然场景文本检测的方法,该方法首先提出自适应色彩聚类方案,对于不同复杂程度的图像,该方案能聚类得到不同数目的色彩层,有效提取文本连通区域;然后,通过训练极限学机(ELM),构建邻域字符模型,合并形成字符串,提高了方法的鲁棒性;最后,为了进一步提高系统文本检测的性能,本方法采用卷积神经网络(CNN)和支持向量机(SVM)相结合的策略,验证文本字符串,与传统方法相比,提高了文本检测的准确性。
申请公布号 CN104809481A 申请公布日期 2015.07.29
申请号 CN201510263154.4 申请日期 2015.05.21
申请人 中南大学 发明人 邹北骥;吴慧;郭建京;赵于前
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 长沙市融智专利事务所 43114 代理人 黄美成
主权项 一种基于自适应色彩聚类的自然场景文本检测方法,其特征在于,包括以下几个步骤:步骤1:获取待进行文本检测图像I的边缘图像I<sub>e</sub>;步骤2:从待进行文本检测图像I中移除边缘图像I<sub>e</sub>中的像素点,得到主色彩图像I<sub>m</sub>;步骤3:初始化色彩聚类中心(μ<sup>0</sup>(r),μ<sup>0</sup>(g),μ<sup>0</sup>(b));步骤3.1,将主色彩图像I<sub>m</sub>中的像素点投影到三维色彩空间;步骤3.2,设定步长S,将该三维色彩空间进行量化,得到(256/S)<sup>3</sup>个大小一致的子立方体;步骤3.3,计算每个子立方体中的像素点的个数,作为该子立方体的密度,并找出密度最大的子立方体;步骤3.4,计算密度最大的子立方体中所有像素点的色彩平均值,将该值作为初始的色彩聚类中心(μ<sup>0</sup>(r),μ<sup>0</sup>(g),μ<sup>0</sup>(b));步骤4:更新色彩聚类中心;步骤4.1,设置更新迭代次数t的初始值为0,第t次迭代得到的色彩聚类中心为(μ<sup>t</sup>(r),μ<sup>t</sup>(g),μ<sup>t</sup>(b));步骤4.2,计算主色彩图像I<sub>m</sub>中的每个像素点p到初始色彩聚类中心的距离d<sub>c</sub>,像素点p的R、G、B色彩通道值依次表示为p<sub>r</sub>、p<sub>g</sub>及p<sub>b</sub>:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>d</mi><mi>c</mi></msub><mo>=</mo><msqrt><msup><mrow><mo>(</mo><msub><mi>p</mi><mi>r</mi></msub><mo>-</mo><msup><mi>&mu;</mi><mi>t</mi></msup><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msub><mi>p</mi><mi>g</mi></msub><mo>-</mo><msup><mi>&mu;</mi><mi>t</mi></msup><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msub><mi>p</mi><mi>b</mi></msub><mo>-</mo><msup><mi>&mu;</mi><mi>t</mi></msup><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mrow>]]></math><img file="FDA0000721642180000011.GIF" wi="1087" he="103" /></maths>步骤4.3,找出主色彩图像I<sub>m</sub>中满足条件d<sub>c</sub>&lt;l的所有像素点,并计算满足条件的所有像素点的色彩平均值,作为新的色彩聚类中心(μ<sup>t+1</sup>(r),μ<sup>t+1</sup>(g),μ<sup>t+1</sup>(b));l表示色彩距离阈值,取值范围为[24,88];步骤4.4,判断(μ<sup>t</sup>(r),μ<sup>t</sup>(g),μ<sup>t</sup>(b))与(μ<sup>t+1</sup>(r),μ<sup>t+1</sup>(g),μ<sup>t+1</sup>(b))是否相等,若相等,则以(μ<sup>t+1</sup>(r),μ<sup>t+1</sup>(g),μ<sup>t+1</sup>(b))作为最终的色彩聚类中心(μ(r),μ(g),μ(b)),否则,令t=t+1,返回步骤4.2,直到色彩聚类中心的取值不发生变化;步骤5:构建色彩层图像;步骤5.1,根据步骤4中得到最终的色彩聚类中心(μ(r),μ(g),μ(b)),遍历I<sub>m</sub>和I<sub>e</sub>中所有像素点,计算每个像素点q到色彩聚类中心(μ(r),μ(g),μ(b))的距离d;步骤5.2,把满足条件d&lt;l的像素点q组成一张色彩层图像,表示为C<sub>i</sub>,其中,i代表第i次得到的色彩层图像,同时把这些像素点从I<sub>m</sub>和I<sub>e</sub>中移除,得到新的主色彩图像和边缘图像;i的初始值取值为1;步骤5.3,步骤5.2得到的新的主色彩图像,i=i+1,返回步骤3,直到步骤2所述的主色彩图像I<sub>m</sub>中所有像素点都分配到对应的色彩层图像中,构建出所有色彩层图像<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mo>{</mo><msub><mi>C</mi><mn>1</mn></msub><mo>,</mo><msub><mi>C</mi><mn>2</mn></msub><mo>.</mo><mo>.</mo><mo>.</mo><msub><mi>C</mi><mi>n</mi></msub><mo>|</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><msub><mi>I</mi><mi>m</mi></msub><mo>+</mo><msub><mi>I</mi><mi>e</mi></msub><mo>}</mo><mo>;</mo></mrow>]]></math><img file="FDA0000721642180000021.GIF" wi="621" he="140" /></maths>步骤6:对所有的色彩层图像进行二值化处理,得到对应的二值化图像,并提取所有二值化图像中的连通区域,组成连通区域集合CCs;步骤7:构建极限学习机分类器训练集;首先,选取ICDAR2013数据库训练集中的图像作为训练样本,将训练样本中每幅图像执行步骤1‑6,得到连通区域集合CCs;然后,将CCs中相邻的连通区域两两组成一对,如果一对中的2个连通区域在同一文本字符串中且相邻,则视相邻的连通区域为正样本;如果一对中的2个连通区域都是文本,且垂直重复率为0,即2个连通区域分布在2个不同的字符串中,或者一对中的2个连通区域,其中有一个为非文本,则视相邻的连通区域为负样本;从所有的正负样本中,随机选取10000个正样本和10000个负样本作为构建极限学习机训练集;步骤8:用极限学习机分类器训练集中每个样本的特征向量训练分类器,得到邻域字符模型;所述每个样本的特征向量包括高度比R<sub>h</sub>、平均笔画宽度比R<sub>sw</sub>、垂直重叠率R<sub>vol</sub>、水平间距D和颜色相似度CS 5个特征;步骤9:相邻字符合并;对待进行文本检测图像I对应的连通区域集合CCs中的连通区域,按照从上到下、从左至右的顺序进行编号标记,记为(CC<sub>1</sub>,CC<sub>2</sub>...CC<sub>n</sub>),n表示连通区域的个数;利用步骤8得到的极限学习机分类器对(CC<sub>1</sub>,CC<sub>2</sub>...CC<sub>n</sub>)进行邻域字符分类,将相邻的字符进行合并,得到文本字符串,完成文本检测。
地址 410083 湖南省长沙市岳麓区麓山南路932号