发明名称 搜索引擎爬虫的识别、处理方法及装置
摘要 本发明公开了一种搜索引擎爬虫的识别、处理方法及装置。其中,该识别方法包括:获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,所述指定统计参数用于反映所述统计数据的相同统计特征;在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端对所述网站的访问行为为搜索引擎爬虫访问。本发明解决了相关技术中由于搜索引擎爬虫识别存在的漏报、误检测等导致的准确性和可靠性不高等技术问题。
申请公布号 CN106156055A 申请公布日期 2016.11.23
申请号 CN201510142387.9 申请日期 2015.03.27
申请人 阿里巴巴集团控股有限公司 发明人 任宏伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京博浩百睿知识产权代理有限责任公司 11134 代理人 宋子良
主权项 一种搜索引擎爬虫的识别方法,其特征在于,包括:获取客户端在统计周期的各个统计时间段内对多个网站进行访问后统计得到的统计数据,其中,所述各个统计时间段组成所述统计周期;对所述统计数据中与指定统计参数对应的数据进行预处理,得到统计值,其中,该统计值用于反映在所述各个统计时间段内针对所述客户端的访问行为的统计结果,所述指定统计参数用于反映所述统计数据的相同统计特征;在每个所述指定统计参数对应的统计值均大于预设阈值时,确定所述客户端对所述网站的访问行为为搜索引擎爬虫访问。
地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱