发明名称 |
基于内容分发网络的网站内容智能防抓取方法和系统 |
摘要 |
本发明公开了基于内容分发网络的网站内容智能防抓取方法和系统,能够减少由于误判导致的正常客户端无法访问网站,且能自动解除禁问状态。其技术方案为:内容分发网络系统接收客户端请求,监测客户端访问行为;判断客户端访问频率是否超过预设阈值,若未超过则直接返回所请求的内容;否则继续判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长;若大于则返回所请求的内容;否则返回客户端验证码页面;判断客户端是否提交了正确的验证码,若是则返回所请求的内容;否则判断客户提交的非法验证码次数是否超过设定值,若未超过则返回客户端验证码页面,否则认为客户端是抓取机器,对其禁止访问,返回403响应。 |
申请公布号 |
CN102970296B |
申请公布日期 |
2015.07.15 |
申请号 |
CN201210480461.4 |
申请日期 |
2012.11.22 |
申请人 |
网宿科技股份有限公司 |
发明人 |
洪珂;郭文强;张颖 |
分类号 |
H04L29/06(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
H04L29/06(2006.01)I |
代理机构 |
上海专利商标事务所有限公司 31100 |
代理人 |
施浩 |
主权项 |
一种基于内容分发网络的网站内容智能防抓取方法,包括:内容分发网络系统接收客户端请求,监测客户端访问行为;判断客户端访问频率是否超过预设阈值,若客户端访问频率未超过预设阈值则认为客户端是正常网站用户,直接返回客户端所请求的内容,流程结束;若客户端访问频率超过预设阈值则继续判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长;若客户端本次请求时间大于上次超过访问频率的时间加上预设的防抓取状态时长则认为客户端不在防抓取状态内,返回客户端所请求的内容,流程结束;若客户端本次请求时间小于上次超过访问频率的时间加上预设的防抓取状态时长则认为客户端仍在防抓取状态内,返回客户端验证码页面;判断客户端是否提交了正确的验证码,若提交了正确的验证码则返回客户端所请求的内容,流程结束;若未提交正确的验证码则判断客户提交的非法验证码的次数是否超过设定值,若未超过则返回客户端验证码页面以供客户端再次输入验证码,若超过则认为客户端是抓取机器,对其禁止访问,返回表示服务器拒绝请求的403响应。 |
地址 |
200030 上海市徐汇区斜土路2669号15楼 |