发明名称 一种面向网络流传输的中文PDF文件文本内容提取方法
摘要 本发明属于网络信息处理技术领域,尤其是一种面向网络流传输的中文PDF文件文本内容提取方法。本发明包括:步骤A:提供给应用层逻辑的接口;步骤B:对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取。本发明通过对网络数据流传输的中文PDF文件内容提取各个步骤进行分析及优化,达到了整个系统在时间效率,空间效率上最大可能的优化,同时,避免了时延抖动这样有害现象的产生,使得该方法能够在不影响系统整体运行效率得情况下,运行于大流量的监管系统中。
申请公布号 CN105843783A 申请公布日期 2016.08.10
申请号 CN201610161029.7 申请日期 2016.03.21
申请人 哈尔滨工程大学 发明人 王巍;杨武;苘大鹏;玄世昌;段茂涛
分类号 G06F17/22(2006.01)I;H04L12/823(2013.01)I;H04L12/841(2013.01)I 主分类号 G06F17/22(2006.01)I
代理机构 代理人
主权项 一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,包括下列步骤:步骤A:提供给应用层逻辑的接口;步骤B:对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取;所述步骤B包括些下列步骤:步骤B1,PDF文件内容流定位;步骤B2,PDF文件内容流预解压与预识别;步骤B3,PDF文件内容流解压;步骤B4,PDF文件转码映射文件提取;步骤B5,PDF文件中文CID编码提取;步骤B6,PDF文件CID编码池内容通过缓冲池的方式提交。
地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室