GPU在执行Tensorflow或Theano代码时丢失。

Question

12

在训练两个不同的神经网络，一个使用Tensorflow，另一个使用Theano时，有时候会在随机时间（几小时或几分钟，通常是几小时）后执行冻结，并且我运行“nvidia-smi”时会收到以下消息：

"Unable to determine the device handle for GPU 0000:02:00.0: GPU is lost. Reboot the system to recover this GPU"

我尝试监控GPU性能进行了13小时的执行，一切似乎都很稳定：

我的工作环境如下：

我不确定如何解决这个问题，请问有什么想法可以导致这种情况，并且如何诊断/解决这个问题？

- Mega

你找到解决方案/答案了吗？ - A. Attia

是的，我添加了一个答案，希望这能帮到你。 - Mega

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mega · Accepted Answer

我之前发布过这个问题，但经过几周的调查后，我们找到了问题（和解决方案）。

现在我不记得所有的细节了，但是我会发布我们的主要结论，以防有人会发现它有用。

底线是 - 我们拥有的硬件不足以支持高负载的GPU-CPU通信。我们在一个装有1个CPU和4个GPU设备的机架服务器上观察到了这些问题，PCI总线上出现了超载。通过向机架服务器添加另一个CPU来解决了这个问题。