发明名称 一种Web活跃用户网站访问模式的在线挖掘方法
摘要 本发明公开了一种Web活跃用户网站访问模式的在线挖掘方法。本发明采用在线实时鉴别活跃用户和实时挖掘用户访问模式的方法,获得活跃用户对网站的频繁访问模式。方法基于关联规则的频繁度模型,只需扫描一次用户请求数据即可实时鉴别活跃用户并提取活跃用户的会话信息。依据带根子树特点,采用自下而上的方式快速地从会话树中产生所有子树,并构造有效存储结构全局Trie树来维护产生的子树。算法在传统频繁模式挖掘方法基础上,有效结合滑动窗口模型,可以实时挖掘活跃用户对网站的频繁访问模式。本发明能够快速、实时地对网站活跃用户的访问模式进行分析和挖掘,是一种既高效又实用的用户行为模式分析方法。
申请公布号 CN101266610B 申请公布日期 2011.06.01
申请号 CN200810061397.X 申请日期 2008.04.25
申请人 浙江大学 发明人 陈珂;陈刚;胡天磊;寿黎但;贝毅君
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 周烽
主权项 1.一种Web活跃用户网站访问模式的在线挖掘方法,其特征在于,该方法包括以下步骤:(1)会话产生器提取用户的访问请求,包括访问者、访问时间和访问页面,产生不同用户在不同时间段对网站访问的会话信息;(2)根据用户对网站的访问请求内容、请求时间、请求频率,依据用户鉴别策略,获得网站活跃用户;(3)根据网站的组织结构信息,将活跃用户的会话信息转化成相应的树形结构模型,即会话树;(4)从活跃用户的会话树中产生带根子树,即会话子树,并从所生成的会话子树中实时挖掘出用户对网站的频繁访问模式;其中,所述步骤(1)中,去掉用户请求中的冗余信息,转化成访问三元组&lt;访问者,访问时间,访问页面&gt;,该三元组信息被记录到会话表中;根据当前访问与会话创建的时间间隔Δ<sub>T</sub>向活跃用户实时鉴别器发送用户访问信息;按照t+2t+...+2<sup>n-1</sup>t≤Δ<sub>T</sub>计算n值,其中t为事先给定的时间间隔,当前n值与前一次计算的n值发生变化时,向活跃用户实时鉴别器发送用户访问信息;所述步骤(2)中,活跃用户依据访问频率确定,给定预设阈值支持度s∈(0,1)和错误率参数ε∈(0,1),其中ε<<s,以及当前接收到的用户请求次数N,所有访问频率超过(s-ε)*N的用户被认定为活跃用户;所述步骤(3)中,根据网站的组织结构信息,将活跃用户会话中后面的请求关联且只关联到前面的某个请求,父子节点关系的形成依据访问请求在时间上的先后顺序;产生的会话树有三个特点:第一,所有的会话树具有公共根节点;第二,所有的会话树中不存在标签相同的兄弟节点;第三,每个节点下的子节点有序;所述步骤(4)中,频繁访问模式的挖掘步骤如下:第一步,子树产生模块采用自下而上的方式为每棵会话树产生所有带根子树,产生步骤如下:(a)获得当前节点的所有子节点,产生所有子节点的带根子树,将每个子节点的所有带根子节点看作一个等价类EQ;(b)从子节点所构造的EQ中选择子树,并将这些子树合并成新的以当前节点为根节点的子树;即当节点下有k个子节点,第i个子节点对应的EQ中有c<sub>i</sub>个子树,则将产生∏(c<sub>i</sub>+1)个以当前节点为根的子树,其中i满足1≤i≤k;第二步,将产生的带根子树插入到全局子树维护模块,全局子树维护模块以全局Trie树作为数据结构存储子树,子树以三元组(t,f,Δ)来存储其内容,其中t表示插入的子树,在全局Trie树中以字符串的形式表示;f表示该子树出现的次数,即频率;Δ值在子树第一次被插入Trie树时根据表达式<img file="FSB00000373198700021.GIF" wi="110" he="63" />计算确定,其中N为到当前会话树个数,ε为错误率参数,ε∈(0,1),即每棵子树出现次数估计出错的比率;全局子树维护模块包括如下两个部分:(a)子树的插入,在插入子树之前先将子树转化成字符串格式,然后以字符串形式插入到Trie树中,字符串采用前序遍历子树节点的方式产生;如果该子树已经在Trie树中存在,则将子树的对应的频率f加1;如果该子树不存在,则在全局Trie树中插入<img file="FSB00000373198700022.GIF" wi="269" he="72" />(b)非频繁子树的删除,根据ε可计算出滑动窗口大小为<img file="FSB00000373198700023.GIF" wi="239" he="64" />如果当前的N正好是w的整数倍,则扫描所有子树;如果子树满足不等式t.f+t.Δ≤ε*N,那么就删除该子树;第三步,产生当前频繁访问模式,发送频繁访问模式查询请求获得当前活跃用户对网站的频繁访问模式;给定最小支持度s∈(0,1)且ε<<s,扫描所有全局Trie树中的子树;将所有满足t.f≥(s-ε)*N的子树确认为频繁子树;将产生的频繁子树依据网站的组织架构重新格式化返回给请求者。
地址 310027 浙江省杭州市西湖区浙大路38号
您可能感兴趣的专利