7得票1回答
如何在Slurm作业期间监控资源?

我正在我们大学的集群上运行作业(普通用户,没有管理员权限),该集群使用SLURM调度系统,我想绘制CPU和内存使用情况随时间变化的图形,即当作业正在运行时。我知道有sacct和sstat这些命令,我想在我的提交脚本中包含这些命令,例如: #!/bin/bash #SBATCH <opt...

53得票1回答
状态'drain'是什么意思?

当我使用sinfo时,我看到以下内容:$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST [...] RG3 up 28-00:00:0 1 drain rg3hpc4 [...] “drain”的意...

8得票1回答
如果SLURM作业失败,我该如何自动重新排队srun作业?

我需要运行300个相同模型(黑匣子),但有时会在模型内部发生分段错误,具体错误信息如下: srun: error: nodexyz: task 0: Segmentation fault 该集群使用SLURM作为资源管理器,如果作业失败,我希望能够自动重新排队该作业。

32得票1回答
在由Slurm处理的Bash脚本中注释的处理方式

我在一个集群上使用slurm运行任务,并使用sbatch提交以下脚本:#!/usr/bin/env bash #SBATCH -o slurm.sh.out #SBATCH -p defq #SBATCH --mail-type=ALL #SBATCH --mail-user=my.emai...

39得票1回答
Slurm:为什么在sbatch内使用srun?

在一个sbatch脚本中,你可以直接启动程序或脚本(例如可执行文件myapp),但在许多教程中,人们使用srun myapp代替。尽管阅读了一些有关此主题的文档,我不理解这两种语法的区别以及何时使用每种语法。希望我的问题足够明确(SO上的第一个问题),感谢您提前的答复。

7得票3回答
在SLURM批处理脚本中传递参数到一个Python脚本

我写了一个Python脚本,需要两个参数,在命令行中运行时非常好用: pythonscript.py arg1 arg2 我需要在SLURM批处理脚本中运行它,但每次运行时都会出现“非法指令”错误和核心转储。这是我使用的脚本示例: #!/bin/bash # Set your minim...

16得票2回答
如何从SLURM获取详细的作业运行信息(例如,类似于LSF生成的“标准输出”)?

当使用 LSF 的 bsub 命令时,-o 选项会提供许多详细信息,例如作业的开始和结束时间以及作业所使用的内存和 CPU 时间。但是,在使用 SLURM 时,我只能获得与没有使用 LSF 运行脚本时相同的标准输出。 例如,假设有以下 Perl 6 脚本:warn "standar...

9得票1回答
已完成的旧作业的Slurm作业状态

我想查看使用Slurm提交的一项旧作业的状态。我已经使用了'sacct -j',但是它并没有给我关于作业提交/终止日期的确切信息。我想检查作业提交的日期和时间。我尝试使用`scontrol`,但我认为它仅适用于当前正在运行/挂起的作业,而不适用于已经完成的旧作业。如果有人能为我建议一个Slur...

13得票3回答
在Slurm上使用Python的多进程技术

我正在尝试在Slurm上运行一些并行代码,其中不同的进程不需要通信。我最初使用了Python的Slurm包。但是,似乎我只使用了一个节点上的CPU。 例如,如果我有4个节点,每个节点有5个CPU,那么我将只同时运行5个进程。如何告诉多处理模块在不同的节点上运行? Python代码如下:im...

8得票2回答
如果我的脚本正在由SLURM执行,如何引用另一个bash脚本?

我有一个用于在集群上运行并行程序的脚本。我使用常规命令来运行它: sbatch -p PARTITION -t TIME -N NODES /full/path/to/my/script.sh PARAMETERS-LIST 在 script.sh 中,我需要引用另一个 bash 脚本(位...