发明名称 |
基于分类管理的多线程网络爬虫方法和信息实时更新系统 |
摘要 |
本发明公开了基于分类管理的多线程网络爬虫方法的信息实时更新系统,该系统包括页面获取模块,页面处理模块,模块化机制模块,多线程循环模块,标记队列管理模块,存储模块。系统采用多线程网络爬虫并加以改进,引入标记思想,对已经爬取结束的线程使用队列方式进行标记,解决一般多线程方法中循环爬虫时产生的相互干扰的问题。系统采用模块化机制实现各个不同信息的采集,以便于动态的增加、减少目标文件,方便整个系统的维护修改。本发明方法很好地利用了网络带宽资源,提高了网络信息采集的效率,并减少了多线程爬虫时的干扰,特别适用于信息实时更新系统的网络爬虫问题。 |
申请公布号 |
CN104376063A |
申请公布日期 |
2015.02.25 |
申请号 |
CN201410633279.7 |
申请日期 |
2014.11.11 |
申请人 |
南京邮电大学 |
发明人 |
徐琼;周井泉 |
分类号 |
G06F17/30(2006.01)I;G06F9/48(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
南京知识律师事务所 32207 |
代理人 |
汪旭东 |
主权项 |
一种基于分类管理的多线程网络爬虫的信息实时更新系统,其特征在于,所述系统包括:页面获取模块,页面处理模块,模块化机制模块,多线程循环模块,队列分类管理模块,存储模块;页面获取模块的功能是:获取页面源代码信息;页面处理模块的功能是:根据源代码信息提取所需要的关键信息;模块化机制模块的功能是:每一个不同的URL对应的基本网络爬虫程序放在不同的Python文件中,采用配置文件进行配置,方便修改与添加;多线程循环模块的功能是:采用多线程方式采集信息,提高采集效率;队列分类管理模块的功能是:区分爬取结束与未结束的线程,采用队列管理避免了下次循环时产生的线程冲突问题;存储模块的功能是:将所获取的信息保存到数据库中。 |
地址 |
210003 江苏省南京市鼓楼区新模范马路66号 |