如何在AWS集群上运行TensorFlow?

17

我正在尝试在一个EMR/EC2集群上运行分布式TensorFlow,但是我不知道如何指定集群中的不同实例来运行代码的不同部分。

文档中他们使用了tf.device("/gpu:0") 来指定GPU。但如果我有一个主CPU和5个不同的从GPU实例在EMR集群中运行,并且我想要指定那些GPU来运行一些代码呢?我不能使用实例的公共DNS名称作为tf.device()的输入,因为它会抛出一个错误,提示无法解析该名称。

1个回答

1
自从你的问题提出后,AWS发布了一些代码来简化在EC2集群上使用分布式TensorFlow的操作。请参见github repository。所有内容都在README.md中有详细描述,简单来说,它将创建一个AWS堆栈,其中包括:
- 安全组 - 弹性文件系统 - 配置了AWS深度学习AMI和EFS的EC2实例, - EC2实例将被配置,以便您可以轻松地通过在主节点上运行命令来运行分布式TensorFlow训练(请参见“在TensorFlow上运行分布式训练”部分)。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接