我想运行一个多节点的Hadoop集群,每个节点都在不同主机上的Docker容器中。这个镜像 - https://github.com/sequenceiq/hadoop-docker 可以很好地启动Hadoop伪分布式模式,最简单的修改方法是什么,使得每个节点都在一个独立的EC2主机上的不同容器中?
我使用两个容器在两个不同的Ubuntu主机上运行主节点和从节点。我使用了Weave进行容器间的网络连接。 我已将这些容器的镜像添加到Docker Hub帐户div4中。我安装Hadoop的方式与其在不同主机上的安装方式相同。 我已在此处添加了两个镜像,以及运行Hadoop的命令:https://registry.hub.docker.com/u/div4/hadoop_master/ https://registry.hub.docker.com/u/div4/hadoop_slave/。
Sequenceiq的团队创建了一个名为cloud-break的新项目,旨在与不同的云服务提供商配合,轻松地在它们上面创建hadoop集群。您只需要输入您的凭据,然后对于所有提供商来说,它都是相同的操作,就我所知。因此,对于ec2来说,这现在可能是最简单的解决方案(特别是因为有一个漂亮的GUI)。 https://github.com/sequenceiq/cloudbreak-deployer