发明名称 一种监控分析网站用户行为的方法
摘要 本发明涉及一种监控分析网站用户行为的方法,包括步骤如下:(1)分析对象确定;(2)页面埋点;(3)日志收集;(4)HDFS分布式文件系统存储;(5)分布式汇总计算;(6)结果展现。本发明所述方法支持海量(亿级别/天)访问量的网站,准实时的展现网站浏览量、点击量等数据,并支持明细数据毫秒级查询。本发明所述的方法完全基于开源软件开发,使用普通pcserver,普通sata硬盘,系统架构使用冗余设计,任何数据节点或磁盘损坏后数据都不会丢失。本发明各个环节都实现自动化,支持图形化监控,运维简单。
申请公布号 CN103916293A 申请公布日期 2014.07.09
申请号 CN201410157305.3 申请日期 2014.04.15
申请人 浪潮软件股份有限公司 发明人 杨函涛
分类号 H04L12/26(2006.01)I;H04L12/24(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 济南金迪知识产权代理有限公司 37219 代理人 吕利敏
主权项 一种监控分析网站用户行为的方法,包括步骤如下:(1)分析对象确定:用户在网站上的操作行为包括网页页面浏览和网页页面内对可点击元素的点击;所述网页的页面使用URL作为标识,所述网页页面可点击元素使用ID作为标识;定义分析对象包括:用户对网页页面URL的访问(PV:page view)数量、用户对网页页面元素的点击(CV:click view)数量以及不同用户类型、不同时间、不同地域所分别对应的网页页面访问数量和网页页面元素点击数量;(2)页面埋点:在需要做用户行为分析的网站的框架页面添加用按照步骤(1)确定分析对象后形成的用户行为分析的脚本文件,当用户按照步骤(1)所述的分析对象对网页页面进行访问或对网页页面元素进行点击时,自动请求一次日志服务器的1K大小的图片,实现往标签服务器打点的目的;(3)日志收集:日志收集使用apache作为日志服务器,用户对网页页面元素操作时,将对分析对象的操作及操作者的信息拼装成对图片请求的参数,发送给日志服务器apache,日志服务器apache每收到一次请求即记录一条日志记录,实现日志收集;通过分析页面浏览日志收集用户在网站打开网页的信息,通过分析用户在网站上的点击按钮、链接、图片的日志收集用户在网站网页中的点击行为;(4)HDFS分布式文件系统存储:将收集的apache日志服务器所存的日志通过Hadoop Hive结构化后存储到Hadoop分布式文件系统中,Hadoop分布式文件系统(Hadoop Distributed File System HDFS)是运行在通用硬件(普通pcserver或者普通pc)上的分布式文件系统;(5)分布式汇总计算:利用Hadoop Hive支持HSql的特性,通过书写HSql在HDFS集群环境下,利用Hadoop的MapReduce在多台机器上并行计算,计算每个网页页面每半小时、每天、每月的浏览量和点击量;(6)结果展现:分布式汇总计算的统计结果通过Apache Sqoop将网站、网页页面、用户、按钮的访问数量的数据自动从HDFS中转移至Mysql关系数据库表中,使用java web程序访问mysql数据库,以html页面图表和列表的方式展现网页、广告、图片、按钮实时和一段时间内的网页页面浏览量或网页页面的点击量;所述网页页面浏览量、网页页面元素点击的明细数据以列式存储在HBase分布式数据库中,支持毫秒级的查询。
地址 250101 山东省济南市高新(历城)区浪潮路1036号浪潮科技园S06号楼南2楼