40得票5回答
如何使处于“drain”状态的Slurm节点恢复正常?

使用 sinfo 命令,显示有 3 个节点处于 drain 状态。PARTITION AVAIL TIMELIMIT NODES STATE NODELIST all* up infinite 3 drain node[10,11,12] 我应该使用哪个命...

39得票1回答
Slurm:为什么在sbatch内使用srun?

在一个sbatch脚本中,你可以直接启动程序或脚本(例如可执行文件myapp),但在许多教程中,人们使用srun myapp代替。尽管阅读了一些有关此主题的文档,我不理解这两种语法的区别以及何时使用每种语法。希望我的问题足够明确(SO上的第一个问题),感谢您提前的答复。

39得票1回答
使用Slurm作业ID

当我在集群上启动计算时,通常有一个单独的程序在最后进行后处理:sbatch simulation sbatch --dependency=afterok:JOBIDHERE postprocessing 我想避免打错字,并自动插入正确的工作 ID。有什么好的想法吗?谢谢。

37得票4回答
如何在SLURM中运行程序时保存打印输出?

我正在使用 SLURM 运行一个包含 print 语句的 Python 代码。通常情况下,当我直接通过 "python program.py" 运行 Python 代码时,print 语句会出现在终端中。但是当我通过 SLURM 运行我的程序时,预期的结果是 print 语句不会在终端上出现。...

37得票2回答
SLURM中状态"CG"是什么意思?

在 SLURM 集群上,可以使用 squeue 命令获取系统中作业的信息。 我知道 "R" 表示正在运行;"PD" 表示挂起,但是 "CG" 是什么意思呢? 从经验上来看,我理解 "CG" 意味着作业被取消或失败。但是当作业成功关闭时,是否也会出现 "CG"?那个 "G" 代表什么?

37得票3回答
如何在SLURM中从节点列表中向任意[子集]的节点提交作业?

我有几千个任务要在一个拥有16个节点的SLURM集群上运行。这些任务应该只在大小为7的可用节点子集上运行。其中一些任务是并行的,因此使用单个节点的所有CPU功率,而其他任务是单线程的。因此,多个任务应该同时在单个节点上运行。任何任务都不应跨越多个节点。 目前,我按如下方式提交每个任务:sba...

35得票3回答
在 SLURM 集群中出现错误 - 检测到 1 次 OOM(内存不足)杀死事件:如何提高作业运行效率

我在一个SLURM集群中工作,同时运行了多个进程(在多个输入文件上),并使用相同的bash脚本。 作业结束时,该进程被杀死,并出现以下错误。slurmstepd: error: Detected 1 oom-kill event(s) in step 1090990.batch cgroup...

32得票1回答
在由Slurm处理的Bash脚本中注释的处理方式

我在一个集群上使用slurm运行任务,并使用sbatch提交以下脚本:#!/usr/bin/env bash #SBATCH -o slurm.sh.out #SBATCH -p defq #SBATCH --mail-type=ALL #SBATCH --mail-user=my.emai...

22得票3回答
如何在SLURM中查找作业提交的位置?

我通过SLURM向我们学校的HPC集群提交了几个作业。由于所有的shell脚本都有相同的名称,因此作业名称看起来完全相同。[myUserName@rclogin06 ~]$ sacct -u myUserName JobID JobName Partition Ac...

21得票2回答
SLURM sacct显示“batch”和“extern”作业名称

我已经将一个作业提交到SLURM队列,该作业已经运行并完成。然后,我使用sacct命令检查已完成的作业。但是,通过查看sacct命令的结果,我注意到了一些意外的额外结果: JobID JobName State ...