我正在使用 Slurm。 当我运行
通常会看到一个服务器被指定为“idle”,但有时也会在其附近看到一个小星号(像这样:
那是什么意思? 我找不到任何关于它的信息。(服务器已经启动和运行)。
idle*
)。那是什么意思? 我找不到任何关于它的信息。(服务器已经启动和运行)。
idle*
)。当节点状态后出现*
时,这意味着该节点无法访问。
引用NODE STATE CODES
部分的sinfo手册:
* 节点当前无响应,将不会分配任何新的任务。如果节点仍然无响应,则将其置于DOWN状态(除非是在COMPLETING、DRAINED、DRAINING、FAIL、FAILING节点的情况下)。
sudo service slurmd restart
解决了问题。 - undefined