发明名称 |
一种自动识别网页爬虫的方法和装置 |
摘要 |
本发明公开了一种自动识别网页爬虫的方法和装置;装置包括:获取单元,用于获取一段时间内远程主机到Web服务器的网页请求;判断单元,用于判断各相邻网页请求的时间间隔是否大于或等于一预定的相邻网页请求时间间隔阈值δ;识别单元,用于根据各判断结果是否满足预设条件,来判断所述远程主机的操作是否为网络爬虫。本发明可以快速检测出各种类型的网页爬虫,从而为后续的安全响应提供了宝贵的响应时间。 |
申请公布号 |
CN101902438B |
申请公布日期 |
2013.05.15 |
申请号 |
CN200910084701.7 |
申请日期 |
2009.05.25 |
申请人 |
北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司 |
发明人 |
叶润国;胡振宇;周涛 |
分类号 |
H04L29/06(2006.01)I;H04L12/24(2006.01)I |
主分类号 |
H04L29/06(2006.01)I |
代理机构 |
北京安信方达知识产权代理有限公司 11262 |
代理人 |
龙洪;霍育栋 |
主权项 |
一种自动识别网页爬虫的方法,包括:A1、收集一段时间内远程主机到Web服务器的网页请求序列;A2、计算所述网页请求序列W中各相邻网页请求之间的时间间隔;A3、分别判断各时间间隔是否大于或等于预先设定的相邻网页请求时间间隔阈值δ,如果是则将此时间间隔对应的事件元素ei记为0,否则记为1;各时间间隔对应的事件元素ei组成一个基本事件序列E;A4、用所述基本事件序列E分别匹配假设H0和H1,其中H0表示远程主机的操作为正常网页浏览行为,H1表示远程主机的操作为网页爬虫;如果所述基本事件序列E匹配假设H1的程度,与基本事件序列E匹配假设H0的程度之间的差距大于一程度阈值,则判定远程主机的操作为网页爬虫,否则为正常网页浏览行为。 |
地址 |
100193 北京市海淀区东北旺西路8号中关村软件园21号楼启明星辰大厦 |