发明名称 基于时间分片的Web用户浏览访问矩阵的构造方法
摘要 一种基于时间分片的Web用户浏览访问矩阵的构造方法,根据用户在服务器的访问记录,采用时间分片的方法,将用户访问记录按访问的月份、星期和每天时段分成三类,分别转换成为三个访问矩阵数组,并为每类访问矩阵赋予相应的权重参数,最终得到一个平均访问矩阵。当用户访问网站的时候,将该平均访问矩阵作为输入,即可利用现有的偏爱路径算法得到用户偏爱浏览路径。本方法反映了不同时间用户的偏爱浏览行为也不同的特点,因而能获得更准确的用户偏爱浏览路径。同时,不同时间访问矩阵的权重参数可调节,增加了本方法的灵活性和适应性。
申请公布号 CN102982166A 申请公布日期 2013.03.20
申请号 CN201210529936.4 申请日期 2012.12.11
申请人 南京邮电大学 发明人 吴家皋;袁堂朋;邹志强
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 奚幼坚
主权项 1.基于时间分片的Web用户浏览访问矩阵的构造方法,其特征是:在数据清洗阶段,根据互联网信息服务中的日志文件,建立并存储Web用户的访问记录表,然后,根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度分别为每个Web用户建立三个时间分片的访问矩阵数组,当用户访问网站的时候,按照用户访问时间及权重计算得到一个平均访问矩阵,将该平均访问矩阵作为输入,利用现有的偏爱路径算法得到用户偏爱浏览路径;包括如下步骤:步骤1,数据清洗阶段,根据互联网信息服务中的日志文件,建立并存储Web用户的访问记录表,每条记录表示某个用户在一个访问时间点,从上一个引用页面跳转到当前访问页面的过程;记录表的结构包括:用户IP地址、用户操作系统、用户浏览器、用户访问时间、引用页面、访问页面,其中,根据用户访问IP地址、用户操作系统和用户浏览器将不同的用户区分开来;步骤2,建立Web用户浏览访问矩阵:根据Web用户访问记录表中的访问时间,按月份、星期、每天时段三种不同粒度进行时间分片,分别为每个Web用户建立三个时间分片的访问矩阵数组,包括:一个有12个元素的月份访问矩阵数组<img file="FDA00002561017400011.GIF" wi="453" he="54" />表示1月~12月;一个有7个元素的星期访问矩阵<img file="FDA00002561017400012.GIF" wi="455" he="54" />表示星期一~星期天;一个有3个元素的每天时段访问矩阵<img file="FDA00002561017400013.GIF" wi="430" he="54" />表示8:00~12:00、12:00~18:00和18:00~次日8:00三个时段,每个访问矩阵的结构是相同的,行表示引用页面的网址,列表示当前页面的网址,元素值为支持度,即用户由引用页面跳转到访当前页面路径的访问次数,另外,访问矩阵的行列都要添一个空值,在行向量里出现表示用户不通过网页链接而是通过直接输入网址、用书签来访问或从其它网站链接进入当前访问网页;在列向量里出现表示用户在此页结束浏览或链接到其它网站网页;步骤3,计算平均访问矩阵:当Web用户访问网站时候,系统根据访问时间,计算出该访问时间的月份i、星期j、每天时段k,并从三个访问矩阵数组M,W,D中分别取出相对应的M[i],W[j],D[k]矩阵元素,并用公式(1)求平均访问矩阵N:N=α·M[i]+β·W[j]+γ·D[k]     (1)其中,α,β,γ分别是月份访问矩阵、星期访问矩阵、每天时段访问矩阵的权重参数,且满足:0≤α,β,γ≤1,α+β+γ=1;步骤4,利用现有的用户偏爱路径算法,以平均访问矩阵N作为输入,得到用户偏爱浏览路径。
地址 210003 江苏省南京市鼓楼区新模范马路66号