共享库加载错误:libcudart.so.4:无法打开共享对象文件:没有那个文件或目录。

3
我正在尝试在一个集群上执行MPI和CUDA代码。该代码在单机上运行良好,但在集群上运行时出现错误:
“error while loading shared libraries: libcudart.so.4: cannot open shared object file: No such file or directory”
我检查了我的PATH和LD_PATH,并且看起来没问题。我有一个包含以下条目的.bashrc文件 -
export PATH=$PATH:/usr/local/lib/:/usr/local/lib/openmpi:/usr/local/cuda/bin export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib:/usr/local/ lib/openmpi/:/usr/local/cuda/lib
所有机器都安装了相同版本的CUDA和OpenMPI。
我还在/etc/ld.so.conf中加入了/usr/local/cuda/lib。
能否有人帮助我解决这个问题。这个问题真的很烦人。
谢谢。

你使用什么来初始化集群? - rudolph9
1个回答

5
如果您正在向集群发送批处理作业,请添加以下命令:
echo $LD_LIBRARY_PATH 
ldd ./your_app 

请将以下内容添加到您的批处理脚本中,以帮助调试问题。

set MPIEXEC_TRACE=1
set MPIEXEC_VERBOSE=1

此外,请确保在mpirun中导出环境变量。例如,在OpenMPI中,您可以使用以下命令运行代码:

mpirun -x LD_LIBRARY_PATH ...

mpirun -x LD_LIBRARY_PATH 解决了我的问题。非常感谢你,你让我开心了一整天。 - Coder

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接