Slurm服务器上“空闲”旁边带有星号

13
我正在使用 Slurm。 当我运行 通常会看到一个服务器被指定为“idle”,但有时也会在其附近看到一个小星号(像这样:idle*)。
那是什么意思? 我找不到任何关于它的信息。(服务器已经启动和运行)。

好的,看起来那台服务器上的slurm守护进程出了问题。我已经在服务器上重新启动了它,星号消失了。服务器上的slurm日志为空,所以我不知道为什么会发生这种情况。 - ZoRo
是的,谢谢。在受影响的节点上执行sudo service slurmd restart解决了问题。 - undefined
1个回答

20

当节点状态后出现*时,这意味着该节点无法访问。

引用NODE STATE CODES部分的sinfo手册:

* 节点当前无响应,将不会分配任何新的任务。如果节点仍然无响应,则将其置于DOWN状态(除非是在COMPLETING、DRAINED、DRAINING、FAIL、FAILING节点的情况下)。


好的,我想问为什么它没有标记为“down”,但是我认为就像我的情况一样,他并不是“down”,只是 slurm 守护进程没有工作。 - ZoRo
太好了,您在编辑后添加的信息正是我想知道的。过一段时间后,该节点将切换到“下行”状态。谢谢。 - ZoRo

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接