我正在使用由slurm管理的集群来运行一些yarn/hadoop基准测试。为了做到这一点,我在由slurm分配的节点上启动hadoop服务器,然后在它们上面运行基准测试。我意识到这不是运行生产hadoop集群的预期方式,但必须这样做。
为了做到这一点,我首先编写了一个脚本,使用srun运行,例如
然而,由于我想要启动服务器一次,然后在它们上面启动多个应用程序,而无需在开始时重新启动/编码所有内容,因此我想使用
非常感谢 丹尼尔
为了做到这一点,我首先编写了一个脚本,使用srun运行,例如
srun -N 4 setup.sh
。该脚本编写配置文件并在分配的节点上启动服务器,最小编号的机器充当主服务器。这一切都有效,并且我能够运行应用程序。然而,由于我想要启动服务器一次,然后在它们上面启动多个应用程序,而无需在开始时重新启动/编码所有内容,因此我想使用
salloc
代替。我认为这只是运行salloc -N 4
,然后运行srun setup.sh
的简单情况。不幸的是,这样做不起作用,因为不同的服务器无法相互通信。有人能解释一下使用srun
和使用salloc
,然后srun
之间操作环境的区别吗?非常感谢 丹尼尔