发明名称 |
一种面向网络流传输的中文PDF文件文本内容提取方法 |
摘要 |
本发明属于网络信息处理技术领域,尤其是一种面向网络流传输的中文PDF文件文本内容提取方法。本发明包括:步骤A:提供给应用层逻辑的接口;步骤B:对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取。本发明通过对网络数据流传输的中文PDF文件内容提取各个步骤进行分析及优化,达到了整个系统在时间效率,空间效率上最大可能的优化,同时,避免了时延抖动这样有害现象的产生,使得该方法能够在不影响系统整体运行效率得情况下,运行于大流量的监管系统中。 |
申请公布号 |
CN105843783A |
申请公布日期 |
2016.08.10 |
申请号 |
CN201610161029.7 |
申请日期 |
2016.03.21 |
申请人 |
哈尔滨工程大学 |
发明人 |
王巍;杨武;苘大鹏;玄世昌;段茂涛 |
分类号 |
G06F17/22(2006.01)I;H04L12/823(2013.01)I;H04L12/841(2013.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种面向网络流传输的中文PDF文件文本内容提取方法,其特征在于,包括下列步骤:步骤A:提供给应用层逻辑的接口;步骤B:对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取;所述步骤B包括些下列步骤:步骤B1,PDF文件内容流定位;步骤B2,PDF文件内容流预解压与预识别;步骤B3,PDF文件内容流解压;步骤B4,PDF文件转码映射文件提取;步骤B5,PDF文件中文CID编码提取;步骤B6,PDF文件CID编码池内容通过缓冲池的方式提交。 |
地址 |
150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室 |