发明名称 | 一种面向GPU集群的资源管理方法和系统 | ||
摘要 | 本发明公开了一种面向GPU集群的资源管理方法,包括:主管理节点建立两张表:资源信息表和任务信息表;主管理节点接收到新任务;判断任务是CPU任务还是GPU任务;主管理节点查找满足任务需求的空闲资源;对于CPU任务,次管理节点对任务的数据进行预处理,将数据片分发到其管理的所有节点进行计算,计算完成后,主管理节点根据任务号回收次管理节点管理的所有节点的相关CPU资源;对于GPU任务,在检测到GPU计算完成后,主管理节点先根据任务号回收次管理节点管理的所有节点的相关GPU资源;同时次管理节点管理的所有节点中的CPU进行计算结果后处理,后处理完成后。本发明将CPU资源和GPU资源区别对待,通过任务的检测,能快速地回收空闲的GPU资源。 | ||
申请公布号 | CN103365726B | 申请公布日期 | 2016.05.25 |
申请号 | CN201310284684.8 | 申请日期 | 2013.07.08 |
申请人 | 华中科技大学 | 发明人 | 金海;郑然;冯晓文;朱磊 |
分类号 | G06F9/50(2006.01)I | 主分类号 | G06F9/50(2006.01)I |
代理机构 | 华中科技大学专利中心 42201 | 代理人 | 朱仁玲 |
主权项 | 一种面向GPU集群的资源管理方法,其特征在于,包括以下步骤:(1)主管理节点建立资源信息表和任务信息表,其中资源信息表记录集群中每个节点的节点编号、CPU数目、空闲CPU数目、GPU数目、空闲GPU数目,任务信息表记录正在运行的任务的任务号、占用的资源列表;(2)主管理节点接收来自用户的新任务;(3)主管理节点通过资源信息表判断是否有空闲资源满足该任务的需求;若是则转入步骤(5),否则转入步骤(4);(4)主管理节点将该任务放入排队队列,然后返回步骤(2);(5)主管理节点将该任务分配到节点编号最小的节点,将该节点设为次管理节点,并更新资源信息表和任务信息表;(6)次管理节点对该任务的数据进行处理,以获得该任务的计算结果;(7)次管理节点判断该任务是CPU任务还是GPU任务;若是CPU任务则转入步骤(8),若是GPU任务则转入步骤(10);(8)次管理节点向主管理节点发送该CPU任务的任务号和CPU完成信息;(9)主管理节点根据来自次管理节点的任务号,回收该次管理节点管理的所有节点的CPU资源,更新资源信息表和任务信息表,然后过程结束;(10)次管理节点根据该GPU任务的任务号,回收该次管理节点管理的所有节点的GPU资源,同时次管理节点管理的所有节点中的CPU对数据块的计算结果进行后处理;(11)主管理节点根据来自次管理节点的任务号,回收该次管理节点管理的所有节点的GPU资源,更新资源信息表;(12)次管理节点向主管理节点发送该GPU任务的任务号和CPU完成信息,然后转入步骤(9)。 | ||
地址 | 430074 湖北省武汉市洪山区珞喻路1037号 |