发明名称 互联网用户主动访问行为轨迹的分析方法
摘要 本发明涉及一种互联网用户主动访问行为轨迹的分析方法,属于大数据分析领域。本发明根据用户访问互联网的DPI分光数据,构造用户会话(session),通过用户行为分析,分析出用户主动访问互联网的行为轨迹(即Click行为轨迹)以及连带产生的附属页面的方法。本发明的核心技术是如何判断click页面集合中哪些是点击(click)页面,哪些是由点击页面连带产生的附属页面(Hits或PageViews)。通过该方法可以直观、清晰地分析用户主动访问互联网的行为轨迹。
申请公布号 CN104298782A 申请公布日期 2015.01.21
申请号 CN201410621994.9 申请日期 2014.11.07
申请人 辽宁四维科技发展有限公司 发明人 孙宏;季海东;赵晓波;董童霖
分类号 G06F17/30(2006.01)I;G06F9/44(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 沈阳杰克知识产权代理有限公司 21207 代理人 罗莹
主权项 互联网用户主动访问行为轨迹的分析方法,其特征在于,包括如下步骤:(1)、读取原始数据:从运营商的深度包检测DPI分光数据中读取海量的用户互联网访问记录,生成用户访问记录文件,该访问记录以访问时间为序;(2)、初始赋值:赋值click页面集合中两两页面URL间的最大时间间隔阈值T<i><sub>max</sub></i>,同时预置i=1;(3)、确定click页面集合:对于用户的访问可以模拟成用户会话Session,当会话中两两页面URL间的时间间隔≥T<i><sub>max</sub></i>时,此间隔点前的页面集合为该用户会话Session中的第i个click页面集合P<sub>i</sub>{URL<sub>1</sub>,URL<sub>2</sub>,…,URL<i><sub>j</sub></i>,…};(4)、判断click页面:调用“click点击知识库”的知识,根据“click点击页面推理机”推理集合P<sub>i</sub>中有无click点击页面;若推理成功,则确认该页面为click点击页面,即URL(i)<i><sub>click</sub></i>← URL(k)<i><sub>knowledge</sub></i>,其中k为知识库中第k条知识;若推理不成功,则计算集合P<sub>i</sub>中的所有页面referer包含集合内其他页面数Count(URL<sub>j</sub>)<i><sub>referer</sub></i>,取最大的Count(URL<sub>j</sub>)<i><sub>referer</sub></i>为点击页面,即URL(i)<i><sub>click</sub></i>←Max{Count(URL<sub>j</sub>)<i><sub>referer</sub></i>};(5)、生成用户行为轨迹:若在用户会话中还有click页面集合,则赋值i←i+1,返回步骤(3)重复构造click页面集合;若用户会话中没有click页面集合,则用户行为轨迹分析完毕,生成该用户主动访问行为轨迹URL(i)<i><sub> click</sub></i>,其中i=1,2,……,N。
地址 110043 辽宁省沈阳市大东区大东路134号二门二层