我远程访问高性能计算节点。我不确定NVIDIA Collective Communications Library(NCCL)是否已安装在我的目录中。有没有办法检查NCCL是否已安装?
我远程访问高性能计算节点。我不确定NVIDIA Collective Communications Library(NCCL)是否已安装在我的目录中。有没有办法检查NCCL是否已安装?
您可以尝试
locate nccl| grep "libnccl.so" | tail -n1 | sed -r 's/^.*\.so\.//'
或者如果你使用 PyTorch:
python -c "import torch;print(torch.cuda.nccl.version())"
请检查此链接 命令清单:在Ubuntu上检查已安装的软件/库/深度学习工具的版本
对于容器,在某些情况下可能无法使用locate
,可以将其替换为ldconfig -v
:
ldconfig -v | grep "libnccl.so" | tail -n1 | sed -r 's/^.*\.so\.//'
locate nccl| grep "libnccl.so" | tail -n1 | sed -r 's/^.*\.so\.//'1
时,它没有显示任何内容。 - Ahmad通常你可以在命令行中执行这个操作:
nvcc --version
你可能需要运行:
sudo apt install nvidia-cuda-toolkit
也是。
正如其他回答者所提到的,您可以这样做:
torch.cuda.nccl.version()
在PyTorch中,将以下内容复制并粘贴到终端中:
python -c "import torch;print(torch.cuda.nccl.version())"
我相信在tensorflow中一定有类似的东西。
nvcc --version
命令吗? - Charlie Parkerpython -c "import torch;print(torch.cuda.nccl.version())"
。我希望我知道在没有PyTorch的情况下终端命令是什么。 - Charlie Parker