一种面向网络流传输的中文PDF文件文本内容提取方法,申请号CN201610161029.7-传众专利搜索

发明名称	一种面向网络流传输的中文PDF文件文本内容提取方法
摘要	本发明属于网络信息处理技术领域，尤其是一种面向网络流传输的中文PDF文件文本内容提取方法。本发明包括：步骤A：提供给应用层逻辑的接口；步骤B：对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取。本发明通过对网络数据流传输的中文PDF文件内容提取各个步骤进行分析及优化，达到了整个系统在时间效率，空间效率上最大可能的优化，同时，避免了时延抖动这样有害现象的产生，使得该方法能够在不影响系统整体运行效率得情况下，运行于大流量的监管系统中。
申请公布号	CN105843783A	申请公布日期	2016.08.10
申请号	CN201610161029.7	申请日期	2016.03.21
申请人	哈尔滨工程大学	发明人	王巍;杨武;苘大鹏;玄世昌;段茂涛
分类号	G06F17/22(2006.01)I;H04L12/823(2013.01)I;H04L12/841(2013.01)I	主分类号	G06F17/22(2006.01)I
代理机构		代理人
主权项	一种面向网络流传输的中文PDF文件文本内容提取方法，其特征在于，包括下列步骤：步骤A：提供给应用层逻辑的接口；步骤B：对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取；所述步骤B包括些下列步骤：步骤B1，PDF文件内容流定位；步骤B2，PDF文件内容流预解压与预识别；步骤B3，PDF文件内容流解压；步骤B4，PDF文件转码映射文件提取；步骤B5，PDF文件中文CID编码提取；步骤B6，PDF文件CID编码池内容通过缓冲池的方式提交。
地址	150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室