发明名称 手写体数字识别方法及装置
摘要 本发明公开了一种手写体数字识别方法及装置。该手写体数字识别方法,包括:确定待识别图像;依据像素点的灰度值,确定该待识别图像中的特定的像素点的至少三种像素特征;依据该特定的像素点的至少三种像素特征,分别确定该待识别图像的相应协方差;分别计算该待识别图像的每一协方差与预设的训练图像集合所包含每一类数字类别标签相应的李群均值之间的距离;分别将为该待识别图像的每一个协方差所确定出的多个距离中的最小距离所对应数字类别标签确定为备用数字类别标签;将该备用数字类别标签中个数最多的数字类别标签确定为待识别图像中的待识别数字类别标签。可见,通过利用本方案,可以有效提高手写体数字的识别准确性。
申请公布号 CN103218613B 申请公布日期 2016.04.20
申请号 CN201310123085.8 申请日期 2013.04.10
申请人 苏州大学 发明人 张莉;周伟达;王晓乾;何书萍;王邦军;杨季文;李凡长
分类号 G06K9/20(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 常亮
主权项 一种手写体数字识别方法,其特征在于,包括:确定待识别图像,所述待识别图像中包含手写体形式的待识别数字类别标签;依据像素点的灰度值,确定所述待识别图像中的特定的像素点的至少三种像素特征;依据所述特定的像素点的至少三种像素特征,分别确定所述待识别图像的相应协方差,其中,每一种像素特征唯一对应一个协方差;分别计算所述待识别图像的每一协方差与预设的训练图像集合所包含每一类数字类别标签相应的李群均值之间的距离;其中,所述训练图像集合中每一训练图像包含一手写体形式的数字类别标签,所述训练图像集合所包含的数字类别标签涉及所有的数字类别,并且,所述训练图像集合中每一类数字类别标签对应至少三个李群均值,所述待识别图像的每一个协方差对应每一类数字类别标签的一个李群均值;分别将为所述待识别图像的每一个协方差所确定出的多个距离中的最小距离所对应数字类别标签确定为备用数字类别标签;将所述备用数字类别标签中个数最多的数字类别标签确定为所述待识别数字类别标签;当确定所述待识别图像中的特定的像素点的三种像素特征时所依据的计算公式包括:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>&phi;</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>I</mi><mo>,</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>I</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>,</mo><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>x</mi></mrow></mfrac><mi>I</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>|</mo><mo>,</mo><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>y</mi></mrow></mfrac><mi>I</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>|</mo><mo>)</mo></mrow><mi>T</mi></msup></mrow>]]></math><img file="FDA0000884927950000011.GIF" wi="998" he="166" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>&phi;</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>I</mi><mo>,</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mi>I</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>,</mo><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>x</mi></mrow></mfrac><mi>I</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>|</mo><mo>,</mo><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>y</mi></mrow></mfrac><mi>I</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>|</mo><mo>,</mo><mo>|</mo><mfrac><msup><mo>&part;</mo><mn>2</mn></msup><mrow><mo>&part;</mo><mi>x</mi><mo>&part;</mo><mi>x</mi></mrow></mfrac><mi>I</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>|</mo><mo>,</mo><mo>|</mo><mfrac><msup><mo>&part;</mo><mn>2</mn></msup><mrow><mo>&part;</mo><mi>y</mi><mo>&part;</mo><mi>y</mi></mrow></mfrac><mi>I</mi><mo>(</mo><mrow><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>|</mo><mo>)</mo></mrow><mi>T</mi></msup></mrow>]]></math><img file="FDA0000884927950000012.GIF" wi="1461" he="174" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>&phi;</mi><mn>3</mn></msub><mrow><mo>(</mo><mi>I</mi><mo>,</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><msup><mfenced open = "(" close = ")"><mtable><mtr><mtd><mrow><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>x</mi></mrow></mfrac><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo><mo>,</mo><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>y</mi></mrow></mfrac><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo><mo>,</mo><msqrt><mrow><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>x</mi></mrow></mfrac><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><msup><mo>|</mo><mn>2</mn></msup><mo>+</mo><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>y</mi></mrow></mfrac><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><msup><mo>|</mo><mn>2</mn></msup></mrow></msqrt><mo>,</mo></mrow></mtd></mtr><mtr><mtd><mrow><mo>|</mo><mfrac><msup><mo>&part;</mo><mn>2</mn></msup><mrow><mo>&part;</mo><mi>x</mi><mo>&part;</mo><mi>x</mi></mrow></mfrac><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo><mo>,</mo><mo>|</mo><mfrac><msup><mo>&part;</mo><mn>2</mn></msup><mrow><mo>&part;</mo><mi>y</mi><mo>&part;</mo><mi>y</mi></mrow></mfrac><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo><mo>,</mo><mi>a</mi><mi>tan</mi><mrow><mo>(</mo><mfrac><mrow><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>x</mi></mrow></mfrac><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mfrac><mo>&part;</mo><mrow><mo>&part;</mo><mi>y</mi></mrow></mfrac><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo></mrow></mfrac><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mi>T</mi></msup></mrow>]]></math><img file="FDA0000884927950000013.GIF" wi="1572" he="477" /></maths>其中,φ<sub>j</sub>(I,x,y)(j=1,2,3)为所述待识别图像的像素点(x,y)的第j种像素特征,I(x,y)表示像素点(x,y)处的灰度值,<img file="FDA0000884927950000021.GIF" wi="208" he="127" />为在像素点(x,y)处x方向上的一阶偏导,<img file="FDA0000884927950000022.GIF" wi="205" he="135" />为在像素点(x,y)处y方向上的一阶偏导,<img file="FDA0000884927950000023.GIF" wi="253" he="135" />为在像素点(x,y)处x方向上的二阶偏导,<img file="FDA0000884927950000024.GIF" wi="253" he="142" />为在像素点(x,y)处y方向上的二阶偏导,1≤x≤m,m为所述待识别图像中的行像素值,1≤y≤n,n为所述待识别图像中的列像素值,T为进行矩阵转置;依据所述特定的像素点的三种像素特征,分别确定所述待识别图像的相应协方差所依据的计算公式包括:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msup><mi>C</mi><mi>j</mi></msup><mo>=</mo><mfrac><mn>1</mn><mrow><mi>m</mi><mi>n</mi></mrow></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>x</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><munderover><mo>&Sigma;</mo><mrow><mi>y</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><msub><mi>&phi;</mi><mi>j</mi></msub><mo>(</mo><mrow><mi>I</mi><mo>,</mo><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>-</mo><msub><mover><mi>&phi;</mi><mo>&OverBar;</mo></mover><mi>j</mi></msub><mo>(</mo><mi>I</mi><mo>)</mo><mo>)</mo></mrow><msup><mrow><mo>(</mo><msub><mi>&phi;</mi><mi>j</mi></msub><mo>(</mo><mrow><mi>I</mi><mo>,</mo><mi>x</mi><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>-</mo><msub><mover><mi>&phi;</mi><mo>&OverBar;</mo></mover><mi>j</mi></msub><mo>(</mo><mi>I</mi><mo>)</mo><mo>)</mo></mrow><mi>T</mi></msup><mo>,</mo><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mn>3</mn></mrow>]]></math><img file="FDA0000884927950000025.GIF" wi="1349" he="143" /></maths>其中,C<sup>j</sup>为第j种像素特征所对应的协方差,<img file="FDA0000884927950000026.GIF" wi="578" he="142" />为所述待识别图像中第j种像素特征的均值,T为进行矩阵转置。
地址 215123 江苏省苏州市工业园区仁爱路199号