发明名称 基于Web的爬虫识别算法
摘要 本发明提供一种基于Web的爬虫识别算法,设置陷阱,并通过线上分析用户访问的行为特征判断是爬虫的概率;对于爬虫可能性大的访问者,要求验证码验证,减少误判;线下分析一天的数据通过大量数据正确的识别出隐藏性好的爬虫;对于识别出的爬虫加入到确定名单库中。本发明结合了线上的实时识别和线下的正确识别,在保证识别实时性的同时,提高了识别的准确性,降低了误判。
申请公布号 CN105930727A 申请公布日期 2016.09.07
申请号 CN201610262526.6 申请日期 2016.04.25
申请人 无锡中科富农物联科技有限公司;安徽中科物联科技有限公司;江苏物联网研究发展中心 发明人 李兴涛;王儒敬;王伟
分类号 G06F21/56(2013.01)I;G06F17/30(2006.01)I 主分类号 G06F21/56(2013.01)I
代理机构 无锡市大为专利商标事务所(普通合伙) 32104 代理人 殷红梅;屠志力
主权项 一种基于Web的爬虫识别算法,其特征在于,至少包括一种在线识别方法;在线识别方法通过:S1)设置陷阱,根据访问者请求陷阱中的信息来初步判定为疑似爬虫;S2)对于每一个访问者维护访问信息,通过对访问者的访问行为分析进一步判断是否为疑似爬虫;S3)对于上述S1和S2识别出为疑似爬虫的行为,最后通过验证码验证的方法确定是否为爬虫。
地址 214135 江苏省无锡市新区菱湖大道200号江苏物联网研究与发展中心C座3楼