发明名称 一种表单图像分类方法
摘要 本发明涉及一种表单图像分类方法。对于训练图像,首先对属于同一类的表单求取均值图像,均值图像的每个像素点是每张训练图像在该位置的像素的均值,得到的均值图像构成每一类的均值模板;然后求取三种权重值:一致性权重、随机性权重和抖动性权重,在进行表单分类时使用三种权重和均值模板进行分类的计算。也可以将平均表单改为取该位置像素点众数的表单,然后针对该众数表单计算方差和不同的权值。本发明能够减少用户填写信息的随机性带来的影响,同时放大表单版面中区分信息的重要性,从而针对版面相似的中文表单取得很好的分类性能。
申请公布号 CN104899551A 申请公布日期 2015.09.09
申请号 CN201510217474.6 申请日期 2015.04.30
申请人 北京大学 发明人 王思萌;高良才;王悦涵;汤帜
分类号 G06K9/00(2006.01)I;G06K9/62(2006.01)I;G06K9/46(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 冯艺东
主权项 一种表单图像分类方法,其特征在于,包括如下步骤:1)将一部分已知类型的相似表单图像作为训练图像,对训练图像中属于同一类的表单求取均值图像,作为每一类表单的均值模板;所述均值图像的每个像素点是每张训练图像在相同位置的像素的均值;2)利用所述训练图像和所述均值模板计算训练图像中相似表单的一致性权重和随机性权重,所述一致性权重衡量相似表单的类间一致性,所述随机性权重衡量用户填写区域的随机性;3)利用计算得到的一致性权重和随机性权重,计算待分类的表单图像与每一类表单的均值模板的加权距离,选取距离最短的均值模板所在的表单类型作为表单分类的结果。
地址 100871 北京市海淀区颐和园路5号北京大学