发明名称 一种结合字符级分类和字符串级分类的文本检测和识别方法
摘要 本发明公开了一种结合字符级和字符串级分类的文本检测和识别方法,在图像中提取可能属于同一字符的像素集形成备选字符;滤除不满足字符几何特征统计规律的备选字符;采用基于字符旋转和尺度不变性特征的字符级分类器对备选字符分类,以确定备选字符为某字符的概率;将字符两两合并形成初始字符串;计算两两字符串间的相似度,将相似度最高的两字符串合并成新的字符串,直到没有可再合并的字符串;采用基于字符串结构特征的字符串级分类器对字符串分类,以确认具有语意的字符串;利用待识别字符为某一字符的概率对字符串识别,得到语意文本。本发明将文本检测和识别过程作为一个整体,利用检测和识别的相互作用提高结果精度,简单高效。
申请公布号 CN103077389B 申请公布日期 2016.08.03
申请号 CN201310004707.5 申请日期 2013.01.07
申请人 华中科技大学 发明人 白翔;姚聪;蔡超;刘文予
分类号 G06K9/20(2006.01)I;G06K9/62(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 李智
主权项 一种结合字符级和字符串级分类的文本检测和识别方法,包括以下步骤:(1)依据字符的组成像素中相邻像素的笔画宽度相同或相近的规律,在输入图像中提取可能属于同一字符的像素集形成备选字符;(2)滤除不满足字符几何特征统计规律的备选字符;(3)采用基于字符旋转和尺度不变性特征的字符级分类器对步骤(2)保留的备选字符进行分类,以确定备选字符是否为字符以及为某字符的字符分布概率,记被确定为字符的备选字符为待识别字符;(4)在步骤(3)确定的待识别字符中,将字符笔画宽度、尺度和颜色相同或相近以及间距小于两字符尺度之和的两字符进行合并,形成多个由两字符构成的初始字符串;计算两两字符串间的相似度,将相似度最高的两个字符串合并成一个新的字符串,重新计算合并后存在的两两字符串间的相似度,以此类推,直到没有可再合并的字符串,最终得到的字符串即为备选字符串;(5)采用基于字符串结构特征的字符串级分类器对备选字符串进行分类,以确认具有实际语意的备选字符串为待识别字符串;(6)利用步骤(3)得到的字符分布概率对待识别字符串进行识别,最终得到语意文本;所述步骤(3)中基于字符旋转和尺度不变性特征的字符级分类器构建方法具体为:(31)提取训练样本字符c的基本信息,包括重心o(c)、长轴L(c)、短轴l(c)以及方向θ(c),进而确定备选字符c的中心O(c)=o(c)、特征尺度S(c)=L(c)+l(c)和主方向Θ(c)=θ(c);(32)提取训练样本字符的训练特征:首先,定义带参考方向的简略圆形特征模板和精细圆形特征模板;然后,基于上述模板定义旋转和尺度不变性特征,包括字符轮廓形状、字符边缘形状、字符占空比、字符轴比、字符宽度变化和字符密度;接着,将训练样本字符的中心分别与两特征模板中心重合,保持其主方向与对应特征模板的参考方向一致,并将训练样本字符缩放到对应特征模板的尺度;在对应特征模板中,将训练样本字符的梯度方向旋转Θ(c)角度并将其梯度方向归一化到[0,π],利用字符的基本信息计算六个方向的旋转和尺度不变性特征;最后,分别在每一个特征模板中,针对每一个方向,将模板中所有扇形区内字符的同一特征组合为一个特征描述子,最终得到轮廓形状描述子、边缘形状描述子、占空比描述子、轴比描述子、宽度变化描述子和密度描述子;(33)利用训练样本字符的训练特征训练得到字符级分类器,具体为:(S3‑1)准备训练样本;训练样本图像包括正、负样本,正样本是包含字符串的合成图片,每个字符串由2到12个随机字符组成,负样本是不含任何文本的自然图片;训练样本对象是单个字符,每个训练样本x<sub>i</sub>配置两个标记:显性标记<img file="FDA0000881858590000027.GIF" wi="56" he="65" />和隐性标记<img file="FDA0000881858590000023.GIF" wi="87" he="74" />显性标记<img file="FDA0000881858590000024.GIF" wi="63" he="68" />表示训练样本x<sub>i</sub>是否文本组件;若x<sub>i</sub>是文本组件,则<img file="FDA0000881858590000025.GIF" wi="61" he="76" />是x<sub>i</sub>的字符索引;否则,<img file="FDA0000881858590000026.GIF" wi="61" he="71" />是无效标记,由*代替;<img file="FDA0000881858590000021.GIF" wi="598" he="167" /><maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msubsup><mi>y</mi><mi>i</mi><mi>h</mi></msubsup><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><msub><mi>&alpha;</mi><mi>i</mi></msub></mtd><mtd><mrow><mo>(</mo><msubsup><mi>y</mi><mi>i</mi><mi>v</mi></msubsup><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mo>*</mo></mtd><mtd><mrow><mo>(</mo><msubsup><mi>y</mi><mi>i</mi><mi>v</mi></msubsup><mo>&NotEqual;</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000881858590000022.GIF" wi="397" he="180" /></maths>其中,α<sub>i</sub>∈Ω是x<sub>i</sub>的字符索引,字符表Ω包括英文字母52个和阿拉伯数字10个,Ω={a,...,z;A,...,Z;0,...,9}且|Ω|=62;(S3‑2)训练字符级分类器:显性标记<img file="FDA0000881858590000028.GIF" wi="63" he="68" />用于区分树的节点,隐性标记<img file="FDA0000881858590000029.GIF" wi="61" he="75" />用于计算正样本叶子点的字符分布直方图;在训练过程中,通过不断选择具有强区分性的特征描述子,完成随机森林分类器的构建;树中的每个节点存储一个具有强区分性的特征描述子,叶子点不存储特征描述子;正样本叶子点l包含n<sub>l</sub>个正样本,字符分布直方图h<sub>l</sub>(α)为<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>h</mi><mi>l</mi></msub><mrow><mo>(</mo><mi>&alpha;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msubsup><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>l</mi></msub></msubsup><mrow><mn>1</mn><mrow><mo>(</mo><mrow><msubsup><mi>y</mi><mi>i</mi><mi>h</mi></msubsup><mo>=</mo><mi>&alpha;</mi></mrow><mo>)</mo></mrow></mrow></mrow><msub><mi>n</mi><mi>l</mi></msub></mfrac><mo>,</mo><mi>&alpha;</mi><mo>&Element;</mo><mi>&Omega;</mi></mrow>]]></math><img file="FDA0000881858590000031.GIF" wi="630" he="159" /></maths>其中,<img file="FDA0000881858590000035.GIF" wi="92" he="79" />是指示函数,如果括号里的条件为真,指示函数值为1,否则为0;所述步骤(6)具体为:对待识别字符串中的每一个待识别字符S<sub>i</sub>,其对应的z<sub>si</sub>个字符分布概率由大到小为<img file="FDA0000881858590000036.GIF" wi="598" he="78" />最高字符分布概率<img file="FDA0000881858590000037.GIF" wi="159" he="76" />对应的字符α<sub>1</sub>为待识别字符S<sub>i</sub>的候选字符;计算最高字符分布概率<img file="FDA0000881858590000038.GIF" wi="158" he="76" />与它的其它字符分布概率<img file="FDA0000881858590000039.GIF" wi="410" he="79" />的差值和均值,进一步计算差值与均值的比值的绝对值作为替换代价,若替换代价小于预定代价阈值,则将字符α<sub>t</sub>,t∈[2,z<sub>si</sub>]作为待识别字符S<sub>i</sub>的候选字符;对待识别字符串中的所有待识别字符的候选字符进行组合,形成多个待定字符串;采用字典对每个待定字符串进行查询,利用待定字符串中错误字符的个数与字符串长度的比值作为识别误差,选取识别误差最小的待定字符串对应的字典单词作为该字符串的语意,从而获得语意文本。
地址 430074 湖北省武汉市洪山区珞喻路1037号