发明名称 一种PDF文档识别方法
摘要 本发明一种PDF文档识别方法,包括以下步骤:S1:解析PDF文档中的路径对象,识别PDF文档中的表格;S2:解析PDF文档中表格区域以外的文本对象,识别PDF文档中的文字内容;S3:将识别结果写入临时文件,或将其以附件的形式写入PDF文件。本发明提出的PDF文档识别方法可以识别PDF文档中的表格、段落、标题及列表等对象,从而可以一段落为单位对PDF文档进行编辑,并能够方便地给PDF加标签,确定阅读顺序,方便视觉障碍人群阅读;同时,还可以根据识别结果,导出其他格式文档,极大方便了用户进行阅读和编辑PDF文档。
申请公布号 CN104063364A 申请公布日期 2014.09.24
申请号 CN201310088513.8 申请日期 2013.03.19
申请人 福建福昕软件开发股份有限公司北京分公司 发明人 樊孝龙
分类号 G06F17/24(2006.01)I 主分类号 G06F17/24(2006.01)I
代理机构 北京科龙寰宇知识产权代理有限责任公司 11139 代理人 孙皓晨;张爱莲
主权项 一种PDF文档识别方法,其特征在于,包括以下步骤:S1:解析PDF文档中的路径对象,识别PDF文档中的表格;S2:解析PDF文档中表格区域以外的文本对象,识别PDF文档中的文字内容;S3:将识别结果写入临时文件,或将其以附件的形式写入PDF文件。
地址 100098 北京市海淀区知春路56号中海实业大厦9层