您需要运行30个srun作业,但要确保每个作业在特定节点列表中的一个节点上运行(这些节点具有相同的性能,以便公平比较时间)。
你该怎么做?
我尝试过:
-
有什么想法吗?
我尝试过:
-
srun --nodelist=machineN[0-3] <some_cmd>
:同时在所有节点上运行<some_cmd>(我需要在可用节点列表中的一个节点上运行<some_cmd>)
- srun -p partition
似乎可行,但需要包含恰好machineN[0-3]的分区,而这并不总是情况。有什么想法吗?