发明名称 |
基于人群行为模拟的互联网爬虫并发数据采集方法及系统 |
摘要 |
本发明公开了一种基于人群行为模拟的互联网爬虫并发数据采集方法及系统,包括:针对目标网站类型获取个人的操作行为数据;统计分析个人的操作行为数据得出个人的行为特点;根据预设数量的个人的行为特点得出人群的行为特点分布;基于所述人群的行为特点分布建立采集策略;基于所述采集策略对目标网站进行数据采集。本发明所述的技术方案通过记录个人针对同一类型目标网站所产生的操作行为数据,进而获取人群针对该类型目标网站的行为特点分布,基于此建立并发采集策略,最终利用所述采集策略来进行数据并发采集。本发明所述技术方案能够有效避免互联网并发爬取行为被目标网站服务器识别和拒绝服务。 |
申请公布号 |
CN106021552A |
申请公布日期 |
2016.10.12 |
申请号 |
CN201610369463.4 |
申请日期 |
2016.05.30 |
申请人 |
深圳市华傲数据技术有限公司 |
发明人 |
张军;贾西贝 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京酷爱智慧知识产权代理有限公司 11514 |
代理人 |
赵永辉 |
主权项 |
一种基于人群行为模拟的互联网爬虫并发数据采集方法,其特征在于,包括:针对目标网站类型获取个人的操作行为数据;统计分析个人的操作行为数据得出个人的行为特点;根据预设数量的个人的行为特点得出人群的行为特点分布;基于所述人群的行为特点分布建立并发采集策略;基于所述采集策略对目标网站进行数据并发采集。 |
地址 |
518000 广东省深圳市龙华新区清祥路清湖工业区宝能科技园7栋B座12楼J、K单位 |