nvidia-smi在GPU未使用时显示GPU利用率

3

我正在使用GPU 1运行tensorflow,使用export CUDA_VISIBLE_DEVICES=1命令,nvidia-smi中的所有内容都正常,我的python进程正在GPU 1上运行,内存和功率消耗显示GPU 1正在使用。

但是奇怪的是,未使用的GPU 0(根据进程列表、内存、功率使用情况和常识)显示96%的易失性GPU利用率。

有人知道为什么吗?

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.48                 Driver Version: 367.48                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K20c          Off  | 0000:03:00.0     Off |                    0 |
| 30%   41C    P0    53W / 225W |      0MiB /  4742MiB |     96%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla K20c          Off  | 0000:43:00.0     Off |                    0 |
| 36%   49C    P0    95W / 225W |   4516MiB /  4742MiB |     63%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    1      5193    C   python                                        4514MiB |
+-----------------------------------------------------------------------------+

你是唯一使用系统的人吗?这似乎也是一个虚假报告,因为内存使用量为0... - fabrizioM
1个回答

2
运行ps aux | grep 5193命令来查看使用GPU的程序。
由于您的GPU启用了ECC,因此您可能会看到高CPU或内存利用率。
引导启动期间启用ECC时,可以看到高GPU和内存利用率读数。这是在驱动程序初始化期间执行的ECC内存擦除机制导致的。
当持久性模式被禁用时,驱动程序将在没有客户端运行(CUDA应用程序或nvidia-smi或XServer)时进行去初始化,并且需要在任何GPU应用程序(如nvidia-smi)查询其状态之前再次进行初始化,从而导致ECC擦除。
通常情况下,请始终启用持久性模式。只需以root身份运行nvidia-smi -pm 1即可。这将通过始终加载驱动程序来加快应用程序启动速度。
参考:https://devtalk.nvidia.com/default/topic/539632/k20-with-high-utilization-but-no-compute-processes-/

谢谢,这似乎解释清楚了。进程5193是在我的GPU 1上运行的,但只有GPU 0看起来有点奇怪。 - David Parks

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接