发明名称 一种基于访问行为的活跃用户识别方法
摘要 一种基于访问行为的活跃用户识别方法,步骤如下:1)解析用户访问日志,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;2)统计用户模块访问次数;3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户‑模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化,舍掉不必要的特征,只留下核心模块;4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,采用K‑means算法,其中K=2,进行活跃用户划分。
申请公布号 CN106210044A 申请公布日期 2016.12.07
申请号 CN201610542319.6 申请日期 2016.07.11
申请人 焦点科技股份有限公司 发明人 许哲熙
分类号 H04L29/08(2006.01)I 主分类号 H04L29/08(2006.01)I
代理机构 南京瑞弘专利商标事务所(普通合伙) 32249 代理人 陈建和
主权项 一种基于访问行为的活跃用户识别方法,其特征是步骤如下:1)解析用户访问日志,访问日志来自于数据库的中日志表;解析日志的任务,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;2)统计用户模块访问次数,首先应在数据库中建立一张访问模块信息的维表,该维表应该包含各级模块的URL地址以及各级模块之间的对应关系;访问的模块有一级至三级从高级到低级的模块结构,若一级模块名称、二级模块名称、三级模块中有上下级模块缺失,应进行必要的补充;然后,依据之前提取访问日志信息,匹配模块维表,统计用户每天在不同模块的访问次数;3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户‑模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化:第一是面向用户,根据访问量统计用户频数分布,把频数和访问量同时较小的用户过滤掉,第二是面向模块,利用SVD技术对模块维度进行特征抽取,舍掉不必要的特征,只留下核心模块;4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,故采用如K‑means算法,其中K=2,进行活跃用户划分。
地址 210003 江苏省南京市高新技术产业开发区星火路软件大厦A座8-12F