发明名称 一种面向GPU集群的资源管理方法和系统
摘要 本发明公开了一种面向GPU集群的资源管理方法,包括:主管理节点建立两张表:资源信息表和任务信息表;主管理节点接收到新任务;判断任务是CPU任务还是GPU任务;主管理节点查找满足任务需求的空闲资源;对于CPU任务,次管理节点对任务的数据进行预处理,将数据片分发到其管理的所有节点进行计算,计算完成后,主管理节点根据任务号回收次管理节点管理的所有节点的相关CPU资源;对于GPU任务,在检测到GPU计算完成后,主管理节点先根据任务号回收次管理节点管理的所有节点的相关GPU资源;同时次管理节点管理的所有节点中的CPU进行计算结果后处理,后处理完成后。本发明将CPU资源和GPU资源区别对待,通过任务的检测,能快速地回收空闲的GPU资源。
申请公布号 CN103365726B 申请公布日期 2016.05.25
申请号 CN201310284684.8 申请日期 2013.07.08
申请人 华中科技大学 发明人 金海;郑然;冯晓文;朱磊
分类号 G06F9/50(2006.01)I 主分类号 G06F9/50(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 朱仁玲
主权项 一种面向GPU集群的资源管理方法,其特征在于,包括以下步骤:(1)主管理节点建立资源信息表和任务信息表,其中资源信息表记录集群中每个节点的节点编号、CPU数目、空闲CPU数目、GPU数目、空闲GPU数目,任务信息表记录正在运行的任务的任务号、占用的资源列表;(2)主管理节点接收来自用户的新任务;(3)主管理节点通过资源信息表判断是否有空闲资源满足该任务的需求;若是则转入步骤(5),否则转入步骤(4);(4)主管理节点将该任务放入排队队列,然后返回步骤(2);(5)主管理节点将该任务分配到节点编号最小的节点,将该节点设为次管理节点,并更新资源信息表和任务信息表;(6)次管理节点对该任务的数据进行处理,以获得该任务的计算结果;(7)次管理节点判断该任务是CPU任务还是GPU任务;若是CPU任务则转入步骤(8),若是GPU任务则转入步骤(10);(8)次管理节点向主管理节点发送该CPU任务的任务号和CPU完成信息;(9)主管理节点根据来自次管理节点的任务号,回收该次管理节点管理的所有节点的CPU资源,更新资源信息表和任务信息表,然后过程结束;(10)次管理节点根据该GPU任务的任务号,回收该次管理节点管理的所有节点的GPU资源,同时次管理节点管理的所有节点中的CPU对数据块的计算结果进行后处理;(11)主管理节点根据来自次管理节点的任务号,回收该次管理节点管理的所有节点的GPU资源,更新资源信息表;(12)次管理节点向主管理节点发送该GPU任务的任务号和CPU完成信息,然后转入步骤(9)。
地址 430074 湖北省武汉市洪山区珞喻路1037号