我有4个GPU的访问权限(非根用户)。其中一个GPU(编号2)表现异常,有一些内存被阻塞,但功耗和温度非常低(好像上面没有运行任何东西)。请参见下面图片中nvidia-smi的详细信息: 如何在不干扰其他GPU上运行的进程的情况下重置GPU 2?附注:我不是根用户,但我认为我可以找到一些根用户。
重置GPU可以在某种程度上解决您的问题,但由于您的GPU配置可能是不可能的。nvidia-smi --gpu-reset -i "gpu ID" 例如,如果您启用了GPU的nvlink,则不一定始终经过它,而且在您的情况下,似乎nvidia-smi无法找到在GPU上运行的进程。解决方案是通过运行以下命令查找并终止与该GPU相关联的进程,并填写由fuser找到的PID。fuser -v /dev/nvidia* kill -9 "PID"