发明名称 一种基于移动应用的互联网用户数据分析方法
摘要 本发明公开了一种基于移动应用的互联网用户数据分析方法,包括步骤:1)用户行为数据采集;2)崩溃分析;3)关键路径转化率分析;4)频繁序列挖掘;5)聚类分析。本发明根据移动互联网特点,研究移动用户的群体使用行为,协助开发者设计更加完美的软件应用并提高程序调试效率,从而提升移动应用开发质量。可对大型社交、电商、电子政务等移动互联网行业平台应用的数据内容搜集与获取提供良好而广泛的共性技术支撑。
申请公布号 CN105959372A 申请公布日期 2016.09.21
申请号 CN201610298884.2 申请日期 2016.05.06
申请人 华南理工大学 发明人 陆璐;黎灿灿
分类号 H04L29/08(2006.01)I;G06F17/30(2006.01)I;G06Q30/02(2012.01)I 主分类号 H04L29/08(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 罗观祥
主权项 一种基于移动应用的互联网用户数据分析方法,其特征在于,包括以下步骤:1)用户行为数据采集在保证移动应用源代码的逻辑完整性的基础上,在程序中插入可定制的数据收集代码,这部分工作在编译期完成,不污染源代码,通过触发插桩代码的执行来获取程序运行的相关数据,并通过自定义事件和自定义指标的跟踪和分析,获得程序的控制流和数据流信息,从而实现数据收集的目的;其中,主要收集应用的新增用户、活跃用户、启动次数、版本分布、用户地域分布这些行业指标数据,以及每个用户在使用移动应用时页面的浏览顺序,每个页面的平均加载时间、逗留时间这些用户行为数据;2)崩溃分析研究各主流操作系统不可检测异常的调用过程和工作原理,通过重写操作系统底层的异常捕获机制来实现个性化的崩溃信息收集和分析,从而达到在移动应用发生异常时能实时收集开发者定制的异常信息,包括:1)移动设备的硬件信息:操作系统类型、操作系统版本、移动设备厂商、SDK版本信息,从而能够判断崩溃现象的发生是否由于硬件不兼容而导致;2)移动设备的运行时信息:移动设备的总CPU使用率、内存占用率、温度以及该应用的CPU占用率、内存占用率,从而能够断崩溃现象的发生是否由于移动设备性能原因或者应用消耗设备资源过大而导致;3)异常堆栈的具体信息,帮助开发者判断崩溃现象是否由于代码出现Bug而导致,并提供线索定位解决异常;最后通过收集并归类崩溃类型,提供错误管理及数据分析工具,从而提高解决崩溃问题的效率;3)关键路径转化率分析关键路径转化率分析使用漏斗模型进行建模,帮助开发商确定某个流程的设计是否合理,各步骤间的组织是否存在优化的空间;假设漏斗定义的关键路径是A‑B‑C‑D‑E,则如下:①用户完成了A‑B‑C‑D‑E,那么认为这个用户成功完成了A‑B‑C‑D‑E;②用户完成了A‑B‑C‑F‑D‑E,那么认为这个用户成功完成了A‑B‑C‑D‑E,只不过是按松散的顺序完成的;③用户完成了A‑B‑C‑E,那么认为这个用户成功完成了A‑B‑C和一次E;④用户完成了A‑B‑C‑A‑B‑C‑D‑D‑E,那么认为这个用户成功完成了一次A‑B‑C‑D‑E,完成了一次A‑B‑C‑D;⑤用户完成了A‑A‑B‑B‑C‑C‑D‑D‑E‑E,那么认为这个用户成功完成了两次A‑B‑C‑D‑E;⑥用户完成了A‑A‑B‑B‑C‑D‑D‑E‑E,那么认为这个用户成功完成了一次A‑B‑C‑D‑E,完成了一次A‑B和一次D‑E;⑦用户完成了A‑B‑C‑B‑A‑A‑B‑C‑D‑D‑E,那么会认为这个用户成功完成了一次A‑B‑C‑D‑E,完成了一次A‑B‑C‑D,和一次A,一次B;采用上述模型能够分析得到移动应用各页面之间的转化率,通过自定义关键路径,就能够得到该关键路径各页面之间的转化率;4)频繁序列挖掘采用MFSGrowth方法进行用户数据的频繁序列挖掘,该方法以FPTree和TriedTree算法为基础;其中,将MFSGrowth方法用于频繁序列挖掘有以下两个步骤:4.1)生成MFSTree;4.2)生成以某个频繁项为根节点的InvTree;5)聚类分析用户聚类根据用户的使用行为,生成相应特征并聚类,通过用户聚类能够帮助开发商了解各用户群体的整体使用情况,并根据各用户群体的使用规律提供个性化服务;采用双层聚类算法实现对用户使用行为的聚类分析:第一层聚类即基于序列相似度的聚类DBScan:该层主要使用DBScan聚类算法,基于用户的访问序列以及访问时间的相似度,对用户会话进行聚类,得到的结果为多个序列类集;第二层聚类即基于用户行为相似度的聚类k‑means:该层主要使用k‑means聚类算法,在第一层聚类的结果上根据用户在每个序列类集中的使用比例对用户进行聚类。
地址 510640 广东省广州市天河区五山路381号