发明名称 |
用户留存类数据获取方法及装置 |
摘要 |
本发明提供的一种用户留存类数据获取方法,基于hadoop系统的基础构架,通过Hive语句引入外部辅助函数,首先通过辅助函数筛选出具有共通点的留存数据集合,缩小数据记录的范围,缩短计算时筛选数据记录的时间,再在集合数据记录中筛选数据并通过辅助函数进行留存数据计算并以映射关系存储于汇总数据表中,最后对汇总数据表的数据进行运算,获得产品的留存率。辅助函数通过预定义数据类型,除去重复数据记录,简化预算流程,通过辅助函数避免了多次重复join操作在大数据的范围内筛选有用数据,使整个运算过程的逻辑简单清晰,缩短计算时间,计算效率大幅提升。此外,本发明还提供了一种用户留存类数据获取装置,用于运行所述方法。 |
申请公布号 |
CN106528778A |
申请公布日期 |
2017.03.22 |
申请号 |
CN201610977073.5 |
申请日期 |
2016.11.04 |
申请人 |
广州华多网络科技有限公司 |
发明人 |
陶胜 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京市立方律师事务所 11330 |
代理人 |
王增鑫 |
主权项 |
一种用户留存类数据获取方法,其特征在于,包括如下步骤:对hadoop系统的数据库运算,获得预定时间范围内所有用户访问产品产生的数据记录,将该些数据记录存储在筛选数据表中;对筛选数据表运算,获得每个所述产品在某日产生所述数据记录的用户的数量总和作为各相应产品的全部用户量,以及获得每个所述产品在该日起后续时间段内产生所述数据记录的用户的数量总和作为各相应产品的留存用户量,以映射关系将所述产品、所述全部用户量及留存用户量关联性存储于汇总数据表中;对汇总数据表运算,以每个产品的留存用户量与其全部用户量之比求取各产品相关的用户留存率,将各产品及其相应的用户留存率以映射关系存储于留存数据表中。 |
地址 |
511449 广东省广州市番禺区南村镇万博商务区万达广场B-1座29层 |