启动超时并被终止。

3
我正在使用CUDA 4.2和Tesla 2075(cc 2.0)。我在一个非显示的Tesla GPU上运行程序,但是出现了错误:
"the launch timed out and was terminated "

这个错误在非显示GPU上是否是预期的?
另外,我该如何禁用看门狗定时器?

你使用的操作系统是什么? - talonmies
1个回答

4
我假设你正在使用Windows操作系统。如果是这样,请将Tesla 2075设置为TCC模式。这将允许计算机访问并且Windows不会像显示设备一样管理它,从而消除看门狗定时器。如果您无法找到nvidia-smi,请在Windows中搜索nvidia-smi.exe。(它应该已经随着显示驱动程序安装了。)然后,如果C2075是系统中唯一的CUDA GPU,则命令将像这样:nvidia-smi -g 0 -dm 1 您还可以执行nvidia-smi --help以获取工具的命令行帮助。更改此设置后,可能需要重新启动系统才能将卡设置为TCC模式。

如果您在这台机器上运行的是Linux和X窗口系统,解决方案会有所不同。一种方法是简单地禁用X,例如通过将运行级别设置为3并重新启动,但还有其他方法可以做到这一点。然而,您将失去另一个GPU上的X GUI(我假设您有另一个GPU,因为这是一个非显示GPU)。为了保留X和另一个GPU上的GUI,需要修改xorg.conf文件,将X强制放到您的显示GPU上,并使其从计算(Tesla)GPU上移开。要执行此操作的方法会有所不同,但如果您有2个NVIDIA GPU(其中一个用于显示),则应该使用xorg.conf文件中相关“显示”部分中的BusID参数将X显示强制放在单个GPU上。此外,应删除任何其他“显示”部分。例如:

 BusID “PCI:34:0:0”

GPU的PCI ID可以通过lspci命令或nvidia-smi -a命令确定。
您还可以参考NVIDIA驱动程序README文件X配置选项附录

谢谢,那个解决方案很有帮助。我正在使用Ubuntu。这里有一个nvidia链接,其中选项4可以用于完全禁用X的看门狗计时器。如果没有关于显示性能的顾虑,应该使用它。 - rjk
该链接中的选项4适用于只有一个GPU(用于显示和计算任务)的情况。你让它听起来好像你有两个GPU。如果你有一张2075 GPU不是用于显示任务,最好按照我在答案中描述的那样从X中移除该GPU。 - Robert Crovella
我正在使用一个集群,每个节点都有2个GPU - Tesla C2075和GTX580,但由于机箱设计中的一些热限制,目前Tesla卡作为主显示卡。因此,我目前唯一的解决方法是禁用看门狗定时器。 - rjk

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接