发明名称 一种集群GPU资源调度系统和方法
摘要 本发明提供了一种集群图形处理器GPU资源调度系统,该系统包括集群初始化模块、GPU主节点以及若干个GPU子节点;所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果。本发明提供的集群GPU资源调度系统和方法能够实现GPU资源的充分利用,使多个计算任务并行执行,此外,还能够实现集群中各子节点GPU的即插即用。
申请公布号 CN102541640B 申请公布日期 2014.10.29
申请号 CN201110446323.X 申请日期 2011.12.28
申请人 厦门市美亚柏科信息股份有限公司 发明人 汤伟宾;吴鸿伟;罗佳
分类号 G06F9/46(2006.01)I;G06F9/50(2006.01)I 主分类号 G06F9/46(2006.01)I
代理机构 北京恒都律师事务所 11395 代理人 何自刚
主权项 一种集群图形处理器GPU资源调度系统,其特征在于,包括:集群初始化模块、GPU主节点以及若干个GPU子节点;所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果;其中,所述GPU子节点包括:子任务接收模块,用于接收所述GPU主节点分配给本GPU子节点的子任务;子任务执行模块,用于对所述子任务接收模块接收的子任务进一步细分,为本GPU子节点的每个流处理器分配子任务细块,并行执行各子任务细块;结果返回模块,用于将本GPU子节点的子任务计算结果返回给所述GPU主节点;心跳发送模块,用于向所述GPU主节点定时发送包括子节点的ID号、计算能力及执行的任务信息的心跳信号;所述GPU主节点包括:任务接收模块,用于负责接收用户输入的任务;任务划分模块,用于将任务接收模块提供的用户输入的任务划分为若干个子任务,并提供给GPU资源调度模块;GPU资源调度模块,用于根据收到的各GPU子节点的心跳信号,按计算能力对本集群中的GPU子节点资源进行归类和维护,并根据任务的优先级为收到的各任务指定对应计算能力的GPU子节点,以公平调度的方式调度为各任务所选取的GPU子节点;结果处理模块,用于接收处理各GPU子节点返回的子任务计算结果;资源回收模块,用于根据所述结果处理模块返回的任务执行结果,回收已完成子任务的GPU子节点资源;心跳处理模块,用于将各GPU子节点提供的包括子节点的ID号、计算能力及执行的任务信息的心跳信号提供给所述GPU资源调度模块。
地址 361008 福建省厦门市软件园二期观日路12号美亚柏科大厦