重置单个GPU的内存使用情况

5
我有4个GPU的访问权限(非根用户)。其中一个GPU(编号2)表现异常,有一些内存被阻塞,但功耗和温度非常低(好像上面没有运行任何东西)。请参见下面图片中nvidia-smi的详细信息: nvidia-smi output 如何在不干扰其他GPU上运行的进程的情况下重置GPU 2?
附注:我不是根用户,但我认为我可以找到一些根用户。
1个回答

5
重置GPU可以在某种程度上解决您的问题,但由于您的GPU配置可能是不可能的。
nvidia-smi --gpu-reset -i "gpu ID"

例如,如果您启用了GPU的nvlink,则不一定始终经过它,而且在您的情况下,似乎nvidia-smi无法找到在GPU上运行的进程。解决方案是通过运行以下命令查找并终止与该GPU相关联的进程,并填写由fuser找到的PID。
fuser -v /dev/nvidia*

kill -9 "PID"

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接