发明名称 |
一种集群GPU资源调度系统和方法 |
摘要 |
本发明提供了一种集群图形处理器GPU资源调度系统,该系统包括集群初始化模块、GPU主节点以及若干个GPU子节点;所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果。本发明提供的集群GPU资源调度系统和方法能够实现GPU资源的充分利用,使多个计算任务并行执行,此外,还能够实现集群中各子节点GPU的即插即用。 |
申请公布号 |
CN102541640B |
申请公布日期 |
2014.10.29 |
申请号 |
CN201110446323.X |
申请日期 |
2011.12.28 |
申请人 |
厦门市美亚柏科信息股份有限公司 |
发明人 |
汤伟宾;吴鸿伟;罗佳 |
分类号 |
G06F9/46(2006.01)I;G06F9/50(2006.01)I |
主分类号 |
G06F9/46(2006.01)I |
代理机构 |
北京恒都律师事务所 11395 |
代理人 |
何自刚 |
主权项 |
一种集群图形处理器GPU资源调度系统,其特征在于,包括:集群初始化模块、GPU主节点以及若干个GPU子节点;所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果;其中,所述GPU子节点包括:子任务接收模块,用于接收所述GPU主节点分配给本GPU子节点的子任务;子任务执行模块,用于对所述子任务接收模块接收的子任务进一步细分,为本GPU子节点的每个流处理器分配子任务细块,并行执行各子任务细块;结果返回模块,用于将本GPU子节点的子任务计算结果返回给所述GPU主节点;心跳发送模块,用于向所述GPU主节点定时发送包括子节点的ID号、计算能力及执行的任务信息的心跳信号;所述GPU主节点包括:任务接收模块,用于负责接收用户输入的任务;任务划分模块,用于将任务接收模块提供的用户输入的任务划分为若干个子任务,并提供给GPU资源调度模块;GPU资源调度模块,用于根据收到的各GPU子节点的心跳信号,按计算能力对本集群中的GPU子节点资源进行归类和维护,并根据任务的优先级为收到的各任务指定对应计算能力的GPU子节点,以公平调度的方式调度为各任务所选取的GPU子节点;结果处理模块,用于接收处理各GPU子节点返回的子任务计算结果;资源回收模块,用于根据所述结果处理模块返回的任务执行结果,回收已完成子任务的GPU子节点资源;心跳处理模块,用于将各GPU子节点提供的包括子节点的ID号、计算能力及执行的任务信息的心跳信号提供给所述GPU资源调度模块。 |
地址 |
361008 福建省厦门市软件园二期观日路12号美亚柏科大厦 |