发明名称 |
一种基于用户行为分析的Hadoop集群作业调度方法及装置 |
摘要 |
本发明涉及一种基于用户行为分析的Hadoop集群作业调度方法及装置,包括以下步骤:收集Hadoop集群产生的日志文件,根据日志文件创建日志数据表,将日志数据表存储于数据库中,并定时将存储于数据库中的日志数据表转存到Hive集群中;根据存储于Hive集群中的日志数据表,得到每个资源组在任一时间区间内提交作业的作业数量及各资源组提交作业的作业类型;根据每个资源组提交作业的作业类型和作业数量,确定各资源组的最小资源占用限额;在资源组提交作业后,根据该资源组对应的最小资源占用限额调度大于等于最小资源占用限额的资源进行处理提交的作业。本发明能够为作业级的调度提供准确和真实的依据。 |
申请公布号 |
CN104156505A |
申请公布日期 |
2014.11.19 |
申请号 |
CN201410350690.3 |
申请日期 |
2014.07.22 |
申请人 |
中国科学院信息工程研究所 |
发明人 |
陈重韬;王伟平;孟丹;崔甲 |
分类号 |
G06F17/50(2006.01)I |
主分类号 |
G06F17/50(2006.01)I |
代理机构 |
北京轻创知识产权代理有限公司 11212 |
代理人 |
杨立 |
主权项 |
一种基于用户行为分析的Hadoop集群作业调度方法,其特征在于,包括以下步骤:步骤1:收集Hadoop集群产生的用于记录各资源组提交的作业的日志文件,根据日志文件创建日志数据表,将日志数据表存储于数据库中,并定时将存储于数据库中的日志数据表转存到Hive集群中;步骤2:根据存储于Hive集群中的日志数据表,得到每个资源组在任一时间区间内提交作业的作业数量;步骤3:根据存储于Hive集群中的日志数据表,得到各资源组提交作业的作业类型;步骤4:根据每个资源组提交作业的作业类型和该资源组提交作业的作业数量占所有资源组提交作业的作业数量的比例,确定各资源组的最小资源占用限额;步骤5:在资源组提交作业后,根据该资源组对应的最小资源占用限额调度大于等于最小资源占用限额的资源进行处理提交的作业。 |
地址 |
100093 北京市海淀区闵庄路甲89号 |