错误:NVIDIA-SMI无法与NVIDIA驱动程序通信。

16

NVIDIA-SMI出现如下错误:

NVIDIA-SMI失败,因为无法与NVIDIA驱动程序通信。请确保安装并运行最新的NVIDIA驱动程序。

我按照这里给出的步骤卸载了NVIDIA,并重新安装了它。

我的设备规格如下:

  • 使用Tesla M40的服务器
  • 运行Ubuntu 16.04操作系统
  • 内核版本为Linux 4.4.0-116-generic x86_64
  • 驱动程序:nvidia-384

有人可以帮忙解决这个错误吗?

5个回答

9
问题可能是由于4.4.0-116补丁中确认的“错误”导致的。我在使用nvidia-390时遇到了同样的问题。如果您仍想使用更新版本的Nvidia驱动程序,我按照这里的说明解决了问题。通常,使用以下步骤:
  1. 如果您无法登录桌面并陷入失败循环,请按ctrl+alt+F1以登录命令行模式。
  2. 检查gcc的版本是否过时,如果是,请更新: gcc --version
  3. 如果gcc版本为5+,请先卸载nvidia驱动程序:sudo apt-get remove nvidia-390
  4. 清除4.4.0-116内核:sudo apt-get purge linux-headers-4.4.0-116 linux-headers-4.4.0-116-generic linux-image-4.4.0-116-generic linux-image-extra-4.4.0-116-generic linux-signed-image-4.4.0-116-generic
  5. 重新安装内核:sudo apt-get install linux-generic linux-signed-generic
  6. 重新安装nvidia-390:sudo apt-get install nvidia-390
  7. 通过modinfo nvidia-390 -k 4.4.0-116-generic | grep vermagic检查问题是否已解决,请确保此时出现retpoline
  8. 重新启动:sudo reboot
希望这对您和其他遇到同样问题的人有所帮助。论坛中的帖子让我度过了周末。

我在第7步遇到错误。modinfo: 错误: 模块别名nvidia-387未找到。 aerin@capa:~$ libkmod: 错误 ../libkmod/libkmod.c:586 kmod_search_moddep: 无法打开moddep文件'/lib/modules/4.4.0-116-generic/modules.dep.bin' - aerin
1
抱歉,我没有表达清楚,该步骤的命令应该取决于您的 NVIDIA 驱动程序版本,我忘记从其他帖子中更改版本了,现在已经编辑过了。 - Rex Wang

6
注意: 这篇回答是2018年的,适用于Ubuntu 16.04,现已非常过时。不要在最近的Ubuntu版本上尝试这个操作。
尝试以下步骤:
  1. 这里下载驱动程序。
  2. sudo apt-get purge nvidia*- 删除当前安装的驱动程序
  3. dpkg -i nvidia-diag-driver-local-repo-ubuntu1604_375.66-1_amd64.deb- 安装之前下载的文件
  4. sudo apt-get update
  5. sudo apt-get install cuda-drivers
完成后,重新启动计算机。再次启动后,nvidia-smi命令应该可以正常运行。

2
我按照上述步骤操作后,现在当我输入“nvidia-smi”时,会出现以下错误提示:“modprobe: ERROR: could not insert 'nvidia_387': Exec format error NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.” - Vaishnavi Chilukuri
我建议尝试安装nvidia-375,http://www.nvidia.com/download/driverResults.aspx/118962/en-us - 先卸载再执行sudo apt-get install nvidia-375安装。 - bluesummers
1
sudo apt-get install nvidia-375 正在尝试安装 nvidia-375 和 nvidia-384。即使安装了 nvidia-375,nvidia-smi 仍然会给出相同的错误。 - Vaishnavi Chilukuri
1
上次尝试,我已经更新了答案,请尝试并跟随它。 - bluesummers
如果这个答案对你有帮助,请点赞并接受它,这样其他人也会看到 :) - bluesummers
显示剩余2条评论

2

下载最新驱动程序的方法:

    sudo apt install libnvidia-compute-435 libnvidia-compute-435
    sudo apt install libnvidia-gl-435 nvidia-dkms-435 nvidia-kernel-source-435         
    nvidia-utils-435 xserver-xorg-video-nvidia-435 libnvidia-ifr1-435 
    sudo apt install nvidia-driver-435
    sudo reboot

然后:

    nvidia-smi

0
如果您在Google Colab上运行此程序,请转到“运行时”>“更改运行时类型”>选择GPU。这对我有用。

0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接