在GCE上没有任何进程的情况下,GPU利用率达到100%

5

我在Google Compute Engine上启动了一个带有2个GPU(Nvidia Tesla K80)的实例。启动后,我可以通过nvidia-smi看到其中一个GPU已经被完全利用。

我检查了正在运行的进程列表,但没有任何进程在运行。这是否意味着Google已将同一GPU出租给其他人?

enter image description here

所有内容都在这台机器上运行:

No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 16.04.5 LTS
Release:    16.04
Codename:   xenial

enter image description here


我需要确保启动时发生了什么。您能提供控制台输出日志吗?您在启动时运行了什么?也许您在启动时运行了一个使用GPU的进程。此外,GPU只被您使用,而不是被另一个用户租用或使用。 - Milad Tabrizi
我在GCE上启动了一台全新的机器,字面意思是第一次启动,所以没有任何程序在运行。 - Vit D
2个回答

6
启用“持久模式”可以通过nvidia-smi -pm 1命令解决问题。ECC与非持久模式结合使用可能导致100%的GPU利用率。 或者,您可以通过nvidia-smi -e 0命令禁用ECC。 注意:我不确定性能实际上是否更差。我记得尽管存在100%的GPU利用率,但我能够训练ML模型,但我不知道速度是否更慢。

它似乎不会影响性能,但如果你远程监视你的虚拟机,它可能会产生误导。 - ma3oun

0
我建议您在Google问题跟踪器上报告并创建此问题,以便进行调查。请在那里提供您的项目编号和实例名称。请按照URL链接,使您能够在Google问题跟踪器中创建一个私有文件。

在控制台中几乎不可能找到报告此类问题的链接。您应该考虑为那些没有任何支持计划的用户添加它。对于我来说,询问有关此问题的帮助的唯一方法是在StackOverflow上发布。 - Vit D
您可以使用您的Google/gmail帐户访问上面的链接,而且您不需要支持包,因为问题跟踪器是用于根据此文档报告缺陷和功能请求的。但是,链接中的组件是私有的,所以您可以分享您的项目信息。 - Milad Tabrizi

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接