发明名称 | 一种PDF文档识别方法 | ||
摘要 | 本发明一种PDF文档识别方法,包括以下步骤:S1:解析PDF文档中的路径对象,识别PDF文档中的表格;S2:解析PDF文档中表格区域以外的文本对象,识别PDF文档中的文字内容;S3:将识别结果写入临时文件,或将其以附件的形式写入PDF文件。本发明提出的PDF文档识别方法可以识别PDF文档中的表格、段落、标题及列表等对象,从而可以一段落为单位对PDF文档进行编辑,并能够方便地给PDF加标签,确定阅读顺序,方便视觉障碍人群阅读;同时,还可以根据识别结果,导出其他格式文档,极大方便了用户进行阅读和编辑PDF文档。 | ||
申请公布号 | CN104063364A | 申请公布日期 | 2014.09.24 |
申请号 | CN201310088513.8 | 申请日期 | 2013.03.19 |
申请人 | 福建福昕软件开发股份有限公司北京分公司 | 发明人 | 樊孝龙 |
分类号 | G06F17/24(2006.01)I | 主分类号 | G06F17/24(2006.01)I |
代理机构 | 北京科龙寰宇知识产权代理有限责任公司 11139 | 代理人 | 孙皓晨;张爱莲 |
主权项 | 一种PDF文档识别方法,其特征在于,包括以下步骤:S1:解析PDF文档中的路径对象,识别PDF文档中的表格;S2:解析PDF文档中表格区域以外的文本对象,识别PDF文档中的文字内容;S3:将识别结果写入临时文件,或将其以附件的形式写入PDF文件。 | ||
地址 | 100098 北京市海淀区知春路56号中海实业大厦9层 |