发明名称 一种基于WEB日志的异常访问行为检测方法与系统
摘要 本发明涉及一种基于WEB日志的异常访问行为检测方法,步骤包括:1)解析WEB原始日志去除干扰信息后进行IP访问统计和URL访问统计,得到IP访问统计列表和URL访问统计列表;2)根据IP访问统计列表,进行爬虫行为特征识别、错误响应码统计以及访问频率偏差度检测,同时更新IP异常特征表;根据URL访问统计列表,进行偏僻URL访问检测与异常查询串检测,同时更新IP异常特征表;3)根据设定的优先级顺序对IP异常特征表中的异常特征进行排序,输出排序后的IP异常特征表得到异常访问结果。本发明的方法不依赖于历史访问数据构筑访问模型,横向对比发现异常,通过选举参照查询串进行异常参数检测。
申请公布号 CN103297435B 申请公布日期 2016.12.28
申请号 CN201310222685.X 申请日期 2013.06.06
申请人 中国科学院信息工程研究所 发明人 杨婧;徐震;马多贺;宋晨;吕双双;黄亮
分类号 H04L29/06(2006.01)I;H04L29/08(2006.01)I;H04L12/26(2006.01)I 主分类号 H04L29/06(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 余长江
主权项 一种基于WEB日志的异常访问行为检测方法,其方法步骤包括:1)解析WEB原始日志进行IP访问统计和URL访问统计,得到IP访问统计列表和URL访问统计列表同时保存原始日志;2)根据所述IP访问统计列表和所述URL访问统计列表中的异常特征建立IP异常特征表;3)当开始检测时,按照如下方法更新所述IP异常特征表:根据所述IP访问统计列表,进行爬虫行为特征识别、错误响应码统计以及访问频率偏差度检测;根据所述URL访问统计列表,进行偏僻URL访问检测与异常查询串检测;其中,所述爬虫行为特征识别包括:3‑1‑1)遍历IP访问统计列表,如果某IP的下载访问比例超过下载访问比例上限值,或者非页面访问比例低于非页面访问比例下限值或者非页面访问比例为1,则标识该IP为具有爬虫行为特征倾向;3‑1‑2)更新IP异常特征表中的每个IP的是否具有爬虫行为特征列;所述错误响应码统计包括采用IP访问统计列表中每个IP的错误响应码访问比例,更新对应IP的异常特征表中的错误响应码比例值;所述访问频率偏差度检测包括:3‑2‑1)分别对IP访问统计列表的总的会话数、持续时间、访问次数三列计算每个IP在每项指标上的偏移度;3‑2‑2)比较每个IP的三个偏移度的大小,取最大值作为该IP的访问频率偏差度值;3‑2‑3)更新IP异常特征表中的每个IP的访问频率偏差度;所述偏僻URL访问检测包括:3‑3‑1)遍历URL访问统计列表,查找访问IP数最多的URL及其总访问IP数,作为URL最大访问IP数;3‑3‑2)根据偏僻度系数,计算偏僻URL访问IP门限=偏僻度系数*URL最大访问IP数;3‑3‑3)遍历URL访问统计列表,查找访问IP数低于偏僻URL访问IP门限的URL,输出该URL及该URL的访问IP;3‑3‑4)更新每一个该URL的访问IP的异常特征表中的偏僻URL访问次数加1;所述异常查询串检测包括:3‑4‑1)遍历URL访问统计列表,获取每个URL的查询串字典表和访问者信息字典表;3‑4‑2)如果URL的访问者信息字典表长度为1则跳过;3‑4‑3)根据最典型查询串算法从查询串字典表中选择最典型查询串,作为后续异常查询串检测的参照值;3‑4‑4)遍历查询串字典表,根据异常查询串比较算法,判断当前查询串是否异常,如果异常,输出该查询串及该查询串的访问IP;3‑4‑5)更新该查询串的每一个访问IP的异常特征表,将异常查询串访问次数加1;4)根据设定的优先级顺序对所述IP异常特征表中的异常特征进行排序,输出排序后的IP异常特征表;5)根据更新后的IP异常特征表的排序结果,检测出具有异常访问行为的IP。
地址 100093 北京市海淀区闵庄路甲89号