展示Slurm作业的GPU内存使用情况和利用率

6

我正在使用Slurm来访问GPU资源。是否可以显示运行中的Slurm作业的GPU使用情况?就像在普通交互式shell中使用 nvidia-smi 一样。

3个回答

5

你可以使用SSH登录到作业的节点。然后使用nvidia-smi命令。这个对我很有效。 例如,我使用squeue检查我的作业xxxxxx是否正在节点x-x-x上运行。然后我使用ssh x-x-x访问该节点。之后,你可以使用nvidia-smi命令来查看GPU的使用情况。


我收到了这个错误信息:无法初始化NVML:未知错误 - Mohd
这意味着您未安装cudatoolkit。建议通过anaconda进行安装。 - dtlam26
x-x-x 究竟代表什么?squeue 命令输出中的 PARTITION 列是什么? - user1172131

2

我认为大多数用户没有计算节点的权限,我的意思是ssh node-1

这里是在Slurm中的方法:

  1. 检查您的作业ID:
squeue -u <your_username>

然后您将获得该作业的jobid。

  1. 在您的jobid中使用nvidia-smi运行srun
srun --jobid=123456 nvidia-smi

当我尝试使用 srun 运行 nvidia-smi 时,我会收到这样的错误信息: srun: Job 123456 step creation temporarily disabled, retrying. 我目前还没有找到解决方案。你如何解决这个问题? - qwerty
1
123456 应该是您的工作编号,我只是在这里随机写了一个数字... - Zhang Kin
我确实使用了正在运行交互式会话的特定作业,那就是我得到的消息。我的怀疑是,交互式会话仅允许我运行由slurm提供的那个shell,因此当我尝试在同一个作业上运行srun命令进行nvidia-smi时,它就会卡住。 - qwerty
1
我明白了。那么原因大多是因为Slurm的管理员禁用了现有批处理中的srun。 - Zhang Kin

0
我建议尝试在Jupyter中手动启动您的应用程序,并访问Jupyter中的终端shell。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接