我正在使用Slurm来访问GPU资源。是否可以显示运行中的Slurm作业的GPU使用情况?就像在普通交互式shell中使用 nvidia-smi
一样。
你可以使用SSH登录到作业的节点。然后使用nvidia-smi命令。这个对我很有效。 例如,我使用squeue检查我的作业xxxxxx是否正在节点x-x-x上运行。然后我使用ssh x-x-x访问该节点。之后,你可以使用nvidia-smi命令来查看GPU的使用情况。
我认为大多数用户没有计算节点的权限,我的意思是ssh node-1
这里是在Slurm中的方法:
squeue -u <your_username>
然后您将获得该作业的jobid。
srun --jobid=123456 nvidia-smi
srun
运行 nvidia-smi 时,我会收到这样的错误信息: srun: Job 123456 step creation temporarily disabled, retrying
. 我目前还没有找到解决方案。你如何解决这个问题? - qwertysrun
命令进行nvidia-smi时,它就会卡住。 - qwerty