发明名称 |
网页内容爬取的方法和装置 |
摘要 |
本公开提供一种网页内容爬取的方法和装置,包括:调度爬取任务;当查询到所述爬取任务有代理设置时,获取代理IP队列;进行资源管理处理;由数据抓取引擎采用多线程并行处理的方式进行数据抓取;各个线程对各自所抓取的数据交由解析引擎进行数据解析,并对解析数据进行持久化操作。本公开所述解决了一般网页和需要登录的网站的各个功能的爬取工作,爬取的任务由爬取组件完成,且实现了快速准确,同时还能够分析出目标网站的层级关系,形成清晰的爬取目标结构图,为爬取的数据建立起清晰的关系,通过反监控管理实现了反爬技术,为最终得到目标数据扫清了障碍。 |
申请公布号 |
CN105956175A |
申请公布日期 |
2016.09.21 |
申请号 |
CN201610350395.7 |
申请日期 |
2016.05.24 |
申请人 |
考拉征信服务有限公司 |
发明人 |
孔祥旭;张泽斌;周勇 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京律智知识产权代理有限公司 11438 |
代理人 |
姜燕;王卫忠 |
主权项 |
一种网页内容爬取的方法,其特征在于,包括:调度爬取任务;当查询到所述爬取任务有代理设置时,获取代理IP队列;进行资源管理处理;由数据抓取引擎采用多线程并行处理的方式进行数据抓取;各个线程对各自所抓取的数据交由解析引擎进行数据解析,并对解析数据进行持久化操作。 |
地址 |
100080 北京市海淀区丹棱街6号1幢6层703室 |