15得票3回答
使用SRUN代替SBATCH,能否在后台运行SLURM作业?

我试图使用srun在后台运行slurm作业。不幸的是,由于我现在必须通过Docker运行事物,因此使用sbatch有点麻烦,因此我正在尝试找出是否可以完全避免使用它。 根据我的观察,每当我运行srun时,比如说:srun docker image my_job_script.py 关闭我正在...

10得票1回答
使用Slurm的Kubernetes,这种设置正确吗?

我看到有些人将Kubernetes与Slurm同时使用,我很好奇为什么需要在Slurm上使用Kubernetes?Kubernetes和Slurm的主要区别是什么?

169得票2回答
SLURM `srun` vs `sbatch` and their parameters

我正在尝试理解SLURM的srun和sbatch命令之间的区别。我希望得到一般性的解释,而不是针对以下问题的具体答案,但以下这些困惑的具体点可以作为起点并给出我所寻找的想法。 根据文档,srun用于提交作业,sbatch用于提交稍后执行的作业,但实际区别不清楚,它们的行为似乎相同。例如,我有...

13得票1回答
Slurm服务器上“空闲”旁边带有星号

我正在使用 Slurm。 当我运行 通常会看到一个服务器被指定为“idle”,但有时也会在其附近看到一个小星号(像这样:idle*)。 那是什么意思? 我找不到任何关于它的信息。(服务器已经启动和运行)。

20得票2回答
Sbatch: 将作业名称作为输入参数传递

我有以下脚本用于提交slurm作业:#!/bin/sh #!/bin/bash #SBATCH -J $3 #job_name #SBATCH -n 1 #Number of processors #SBATCH -p CA nwchem $1 > $2 第一个参数($1)是我的输...

39得票1回答
使用Slurm作业ID

当我在集群上启动计算时,通常有一个单独的程序在最后进行后处理:sbatch simulation sbatch --dependency=afterok:JOBIDHERE postprocessing 我想避免打错字,并自动插入正确的工作 ID。有什么好的想法吗?谢谢。

7得票1回答
在Slurm中使用Python multiprocessing,需要哪种ntasks或ncpus的组合?

我想在一个Slurm集群上运行Python脚本,并使用Python内置的multiprocessing模块。 我的设置非常简单,为了测试目的,示例代码如下: len(arg_list) Out[2]: 5 threads = multiprocessing.Pool(5) output ...

11得票3回答
如何在多GPU节点上获取分配给SLURM作业的GPU ID?

当我使用选项--gres = gpu:1提交一个SLURM作业到有两个GPU的节点时,如何获取为作业分配的GPU的ID?是否有环境变量用于此目的?我使用的GPU都是Nvidia GPU。谢谢。

16得票2回答
如何从SLURM获取详细的作业运行信息(例如,类似于LSF生成的“标准输出”)?

当使用 LSF 的 bsub 命令时,-o 选项会提供许多详细信息,例如作业的开始和结束时间以及作业所使用的内存和 CPU 时间。但是,在使用 SLURM 时,我只能获得与没有使用 LSF 运行脚本时相同的标准输出。 例如,假设有以下 Perl 6 脚本:warn "standar...

15得票3回答
使用SLURM sbatch作业数组并行运行具有不同输入参数的同一脚本

我有一个问题,需要使用不同的输入参数来启动相同的脚本。 假设我有一个脚本 myscript.py -p <par_Val> -i <num_trial>,我需要考虑N个不同的par_values(在x0和x1之间),每个par_value需要进行M次试验。 M次试验...