发明名称 一种PDF文件的光学字符识别方法及装置
摘要 本发明公开了一种PDF文件的光学字符识别方法,包括:在PDF文件中确定目标页面,并获取所述目标页面的页面大小信息;根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;获取所述目标页面的页面描述指令,提取所述页面描述指令中的页面内容数据及位置信息;根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据;对所述页面内容数据进行光学字符识别,获得识别结果。应用本发明可以实现对PDF文件的直接OCR识别操作,无需在多种软件之间重复切换,简化了用户操作,减少了操作时间,并使用户获得较好的使用体验。
申请公布号 CN101441713B 申请公布日期 2010.12.08
申请号 CN200710177673.4 申请日期 2007.11.19
申请人 汉王科技股份有限公司 发明人 刘迎建;刘昌平;江世盛;丁迎;刘强
分类号 G06K9/20(2006.01)I;G06K9/34(2006.01)I;G06K9/00(2006.01)I 主分类号 G06K9/20(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 逯长明
主权项 一种PDF文件的光学字符识别方法,其特征在于,包括:在PDF文件中确定目标页面,并通过解析PDF文件的逻辑结构和存储结构,获取所述目标页面的页面大小信息;根据所述页面大小信息和预置分辨率信息,在内存中生成相应大小的图像区域;通过解析PDF文件的逻辑结构和存储结构,获取所述目标页面的页面描述指令,提取所述页面描述指令中的页面内容数据及位置信息;根据所述位置信息在所述图像区域的相应位置绘制所述页面内容数据,将所述内存中的PDF页面内容数据已转化为相应的图像数据;对所述页面内容数据进行光学字符识别,获得识别结果。
地址 100094 北京市海淀区东北旺西路8号5号楼三层