发明名称 多核环境下基于海量日志的类似行为模式用户识别方法
摘要 本发明公开了一种多核环境下基于海量日志的类似行为模式用户识别方法。现有的方法运算量巨大、I/O操作繁重。本发明方法首先在WEB服务器端设置单独的日志数据库,用于存放记录用户访问信息的日志数据集;其次读入日志数据集中的部分日志信息至内置多核CPU的通用计算机内存;根据多核环境下设置的线程个数,均分日志数据集,得到多个局部日志数据集,作为各线程的处理数据源;然后各线程分别搜索局部日志数据集,获取局部类似行为模式,并进行归约;最后并行归并各线程获得的局部类似行为模式集至全局类似行为模式集,获得具有类似行为模式的用户。本发明可使类似访问模式的识别过程具有较高的运行效率和加速比。
申请公布号 CN102314491A 申请公布日期 2012.01.11
申请号 CN201110242122.8 申请日期 2011.08.23
申请人 杭州电子科技大学 发明人 俞东进;李万清;郑苏杭
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 杜军
主权项 1.多核环境下基于海量日志的类似行为模式用户识别方法,其特征在于该方法的具体步骤是:步骤(1).在WEB服务器端设置单独的日志数据库,用于存放记录用户访问信息的日志数据集,日志数据集中的每一条日志信息包括用户ID、访问时间、访问IP、请求页面和请求功能号;步骤(2).以可用内存为限,读入日志数据集中的部分日志信息至内置多核CPU的通用计算机内存;步骤(3).根据多核环境下设置的线程个数,采用水平等间距静态投影方法均分日志数据集,得到多个局部日志数据集,作为各线程的处理数据源;设全局日志数据集中有R条记录,采用水平等间距静态投影分配方法将完整的日志数据集划分为n份,其中n=线程个数,使得各线程分配的局部日志数据集为<img file="2011102421228100001DEST_PATH_IMAGE002.GIF" wi="102" he="25" />,其中<img file="2011102421228100001DEST_PATH_IMAGE004.GIF" wi="97" he="33" />步骤(4).各线程分别搜索步骤(3)获得的局部日志数据集,获取局部类似行为模式,并进行归约;各线程将需要处理的局部日志数据集按日志的访问时间从先到后排序;如k个不同用户ID对于同一个请求功能号的日志访问时间间隔小于预设的窗口时间、并尚未置入局部类似行为模式集,则将此k个用户ID作为一个项置入局部类似行为模式集,并记该项的支持度为1;如k个不同用户ID对于同一个请求功能号的日志访问时间间隔小于预设的窗口时间,同时对应的项已置入局部类似行为模式集,则把该项的支持度加1,其中k&gt;=2在此过程中,若生成的局部类似行为模式集容量达到了预先定义的最大内存上限值,则可先将该局部类似行为模式集以文件形式保存在硬盘中;步骤(5).重复步骤(2)、(3)、(4),至日志数据集中的所有日志信息都已处理完毕;步骤(6).并行归并各线程获得的局部类似行为模式集至全局类似行为模式集,获得具有类似行为模式的用户;选择空闲核,合并部分局部类似行为模式集至1个新的局部类似行为集,即把局部类似行为模式集中相同项的支持度进行累加,形成1个新的局部类似行为模式集;多核并行执行上述工作,直至最终获得1个全局类似行为模式集,如其中某个项的支持度超过阈值,则对应的k个用户即为共享类似行为模式的用户。
地址 310018 浙江省杭州市下沙高教园区2号大街