发明名称 |
一种电子文档识别方法及装置 |
摘要 |
本发明公开了一种电子文档识别方法,用于实现文档的识别,提高文档自动分类的效率及准确率。所述方法为:根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。本发明还公开了用于实现所述方法的装置。 |
申请公布号 |
CN104166849B |
申请公布日期 |
2017.04.19 |
申请号 |
CN201310183575.7 |
申请日期 |
2013.05.17 |
申请人 |
北大方正集团有限公司;北京方正阿帕比技术有限公司 |
发明人 |
冯浩然;丁力;张磊;王晓磊 |
分类号 |
G06K9/20(2006.01)I |
主分类号 |
G06K9/20(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
黄志华 |
主权项 |
一种电子文档识别方法,其特征在于,包括以下步骤:根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;所述特征值至少包括:在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于所述最大图像的绘制区的所有可见对象的绘制区面积占最大图像面积的平均比例T<sub>4</sub>,在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于该页中最大图像的绘制区的所有不可见对象的绘制区面积占最大图像面积的平均比例T<sub>5</sub>,每页中最大图像绘制区和文字对象绘制区的公共部分中浅色像素点占此公共部分总像素点数的平均比例T<sub>6</sub>,每页中最大图像绘制区内和非文字对象绘制区的公共部分中,浅色像素点占此部分总像素点数的平均比例T<sub>7</sub>;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;所述第一预设条件为T<sub>4</sub>+T<sub>5</sub>的值小于第二设定值;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档;所述第二预设条件为:第三设定值<T<sub>6</sub><第四设定值,且T<sub>7</sub>≥T<sub>6</sub>。 |
地址 |
100871 北京市海淀区成府路298号方正大厦9层 |