服务器上已经安装了两张NVIDIA K20m卡,但启用了ECC。我观察到使用nvidia-smi -a命令时,即使卡中没有运行计算任务,Volatile GPU-Utilization也很高。K20m仅用于计算。我在Google中搜索并查看了以下链接:https://devtalk.nvidia.com/default/topic/539632/k20-with-high-utilization-but-no-compute-processes-/ 和 https://devtalk.nvidia.com/default/topic/464744/how-to-disable-enable-ecc-on-c2050-/
看起来,ECC总是一个不好的功能,所以它总是被禁用。那么ECC的真正含义是什么呢?由于我只是该服务器的普通用户,因此我没有使用nvidia-smi -e 0命令将ECC设置为禁用的权利。普通用户是否可以禁用ECC?关闭ECC会产生什么影响?我们应何时打开或关闭它?
lspci
显示已经设置了两个K20m
GPU,但是当我使用nvidia-smi
时,它说找不到它们并输出“无法确定GPU 0000:81:00.0的设备句柄”。我认为我还应该向集群管理员寻求帮助。谢谢! - miningnvidia-smi
命令行工具在相关的GPU上启用或禁用它。您可能可以使用NVML库执行类似的功能,但我还没有进行深入研究。如果是这种情况,那么它将允许您编译一个程序并使用NVML来打开和关闭ECC。然而,打开和关闭ECC需要重新启动程序/更改后才能生效。 - Robert Crovella