发明名称 |
基于Web的爬虫识别算法 |
摘要 |
本发明提供一种基于Web的爬虫识别算法,设置陷阱,并通过线上分析用户访问的行为特征判断是爬虫的概率;对于爬虫可能性大的访问者,要求验证码验证,减少误判;线下分析一天的数据通过大量数据正确的识别出隐藏性好的爬虫;对于识别出的爬虫加入到确定名单库中。本发明结合了线上的实时识别和线下的正确识别,在保证识别实时性的同时,提高了识别的准确性,降低了误判。 |
申请公布号 |
CN105930727A |
申请公布日期 |
2016.09.07 |
申请号 |
CN201610262526.6 |
申请日期 |
2016.04.25 |
申请人 |
无锡中科富农物联科技有限公司;安徽中科物联科技有限公司;江苏物联网研究发展中心 |
发明人 |
李兴涛;王儒敬;王伟 |
分类号 |
G06F21/56(2013.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F21/56(2013.01)I |
代理机构 |
无锡市大为专利商标事务所(普通合伙) 32104 |
代理人 |
殷红梅;屠志力 |
主权项 |
一种基于Web的爬虫识别算法,其特征在于,至少包括一种在线识别方法;在线识别方法通过:S1)设置陷阱,根据访问者请求陷阱中的信息来初步判定为疑似爬虫;S2)对于每一个访问者维护访问信息,通过对访问者的访问行为分析进一步判断是否为疑似爬虫;S3)对于上述S1和S2识别出为疑似爬虫的行为,最后通过验证码验证的方法确定是否为爬虫。 |
地址 |
214135 江苏省无锡市新区菱湖大道200号江苏物联网研究与发展中心C座3楼 |