使用 sinfo
命令,显示有 3 个节点处于 drain
状态。
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
all* up infinite 3 drain node[10,11,12]
我应该使用哪个命令行来取消排空这些节点?
使用 sinfo
命令,显示有 3 个节点处于 drain
状态。
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
all* up infinite 3 drain node[10,11,12]
我应该使用哪个命令行来取消排空这些节点?
找到一种方法,进入 scontrol 解释器(在命令行中输入 scontrol
),然后
scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME
scontrol: show node node10
显示其他信息
State=IDLE
更新:其中一些节点已经回到了DRAIN状态;在执行show node a10
命令后注意到它们的根分区已满,显示Reason=SlurmdSpoolDir is full
,因此在Ubuntu中执行sudo apt-get clean
命令以删除/var/cache/apt
目录下的内容,并压缩一些/var/log
文件。
scontrol update nodename=node10 state=idle
如果节点上正在运行作业:
scontrol update nodename=node10 state=resume
虽然已经有一个已批准的答案,但我想提到通过以下步骤:
scontrol: update NodeName=nodename State=DOWN Reason="undraining"
scontrol: update NodeName=nodename State=RESUME
对于 EndeavourOS 2021.08.27 上的 SLURM 21.08.03,返回错误信息 slurm_update error: Invalid node state specified
。我找到了解决方案:
scontrol: update NodeName=nodename State=UNDRAIN
无需设置节点DOWN