我在Google Compute Engine上启动了一个带有2个GPU(Nvidia Tesla K80)的实例。启动后,我可以通过nvidia-smi看到其中一个GPU已经被完全利用。 我检查了正在运行的进程列表,但没有任何进程在运行。这是否意味着Google已将同一GPU出租给其他人? 所有内容都在这台机器上运行: No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 16.04.5 LTS Release: 16.04 Codename: xenial
启用“持久模式”可以通过nvidia-smi -pm 1命令解决问题。ECC与非持久模式结合使用可能导致100%的GPU利用率。 或者,您可以通过nvidia-smi -e 0命令禁用ECC。 注意:我不确定性能实际上是否更差。我记得尽管存在100%的GPU利用率,但我能够训练ML模型,但我不知道速度是否更慢。