主权项 |
互联网用户主动访问行为轨迹的分析方法,其特征在于,包括如下步骤:(1)、读取原始数据:从运营商的深度包检测DPI分光数据中读取海量的用户互联网访问记录,生成用户访问记录文件,该访问记录以访问时间为序;(2)、初始赋值:赋值click页面集合中两两页面URL间的最大时间间隔阈值T<i><sub>max</sub></i>,同时预置i=1;(3)、确定click页面集合:对于用户的访问可以模拟成用户会话Session,当会话中两两页面URL间的时间间隔≥T<i><sub>max</sub></i>时,此间隔点前的页面集合为该用户会话Session中的第i个click页面集合P<sub>i</sub>{URL<sub>1</sub>,URL<sub>2</sub>,…,URL<i><sub>j</sub></i>,…};(4)、判断click页面:调用“click点击知识库”的知识,根据“click点击页面推理机”推理集合P<sub>i</sub>中有无click点击页面;若推理成功,则确认该页面为click点击页面,即URL(i)<i><sub>click</sub></i>← URL(k)<i><sub>knowledge</sub></i>,其中k为知识库中第k条知识;若推理不成功,则计算集合P<sub>i</sub>中的所有页面referer包含集合内其他页面数Count(URL<sub>j</sub>)<i><sub>referer</sub></i>,取最大的Count(URL<sub>j</sub>)<i><sub>referer</sub></i>为点击页面,即URL(i)<i><sub>click</sub></i>←Max{Count(URL<sub>j</sub>)<i><sub>referer</sub></i>};(5)、生成用户行为轨迹:若在用户会话中还有click页面集合,则赋值i←i+1,返回步骤(3)重复构造click页面集合;若用户会话中没有click页面集合,则用户行为轨迹分析完毕,生成该用户主动访问行为轨迹URL(i)<i><sub> click</sub></i>,其中i=1,2,……,N。 |