发明名称 基于TORQUE的并行检查点执行方法
摘要 本发明提供了一种基于TORQUE的并行检查点执行方法,在NFS文件共享存储系统中对计算节点进行检查点操作,所述方法包括如下步骤:(1).用户向TORQUE服务器守护进程pbs_server提交作业,提交命令加入检查点请求,作业脚本中使用作业启动命令chkp_mpirun启动任务;(2).TORQUE服务器守护进程发送任务消息给TORQUE调度器pbs_sched,TORQUE调度器pbs_sched根据作业中指定的参数要求寻找计算节点;(3).对计算节点进行检查点操作。本发明提供的基于TORQUE的并行检查点执行方法,运用改进的基于TORQUE的改进检查点技术,使得原来只支持单进程检查点的TORQUE,现在也能够支持多进程检查点,并能够对节点故障自动处理,对进程进行迁移。
申请公布号 CN102915257B 申请公布日期 2017.02.08
申请号 CN201210367653.4 申请日期 2012.09.28
申请人 曙光信息产业(北京)有限公司 发明人 林霞
分类号 G06F11/00(2006.01)I 主分类号 G06F11/00(2006.01)I
代理机构 北京安博达知识产权代理有限公司 11271 代理人 徐国文
主权项 一种基于TORQUE的并行检查点执行方法,在NFS文件共享存储系统中对计算节点进行检查点操作,其特征在于,所述方法包括如下步骤:(1).用户向TORQUE服务器守护进程pbs_server提交作业;(2).TORQUE服务器守护进程发送任务消息给TORQUE调度器pbs_sched,TORQUE调度器pbs_sched根据作业中指定的参数要求寻找计算节点;(3).对计算节点进行检查点操作;在所述步骤(1)中,用户通过TORQUE提交作业命令qsub提交作业脚本,作业脚本使用MPI进程启动命令chkp_mpirun启动MPI,在提交作业命令中加入作业检查点请求;在所述步骤(2)中,TORQUE调度器pbs_sched通过计算节点守护进程pbs_mom轮询各计算节点的状态,将结果返回给TORQUE服务器守护进程pbs_server;在所述步骤(3)中,TORQUE服务器守护进程pbs_server将用户的检查点操作请求传送到相应的计算节点上并周期运行;其中,各个计算节点分别设置有独立检查点镜像;在所述步骤(3)后,存在以下步骤a:(a).在轮询各个计算节点时,如果发现某个计算节点故障,则将该计算节点上分配的所有未执行完的和未执行的任务根据全局检查点文件全部进行卷回恢复;在所述步骤a中,TORQUE调度器pbs_sched将故障计算节点的 所有任务号发回给TORQUE服务器守护进程pbs_server,TORQUE服务器守护进程pbs_server将读取NFS文件共享存储系统上离当前时间最近的全局进程映像文件,以卷回的方式重新提交任务。
地址 100193 北京市海淀区东北旺西路8号中关村软件园36号楼