9得票2回答
Can I cancel just the array job in slurm?

我有一堆作业在slurm中以数组作业的形式运行: 123_[1-500] PD my_job 0:00 me 123_2 R my_job 9:99 me 123_3 R my_job 9:99 me 123_4 R my_job 9:99 me 1...

9得票1回答
在使用SLURM的sbatch命令时如何导入本地Python模块

我正在使用集群管理器slurm,并且正在使用sbatch(带有Python解释器)运行提交脚本。 sbatch提交导入了我的一个名为main_nn.py的模块。该模块位于与我的提交目录相同的位置,但是尽管文件存在,Python仍无法找到它。我很难弄清楚这是为什么。我的Python文件如下: ...

9得票1回答
SLURM中是否可以暂停当前正在运行的提交脚本?

我有几个脚本已经通过sbatch发送到我可以访问的集群。然而,我想暂停这些运行中的脚本,但不必取消它们的工作,因为它们已经运行了一段时间。 是否有一种方法可以暂停当前正在运行的作业,而不取消它们已经完成的工作? 我在以下网站发现可以使用以下命令暂停它们: To pause a parti...

9得票1回答
SLURM sbatch 输出缓冲

我创建了一些 slurm 脚本,然后尝试使用 sbatch 执行它们。但输出文件更新不够频繁(可能每分钟更新一次)。 有没有办法在 sbatch 中更改输出缓冲延迟?我知道 stdbuf 在这种情况下被使用,但我无法让它与 sbatch 协同工作。

9得票3回答
有没有类似于LSF的"一行代码"可以提交多个作业到SLURM?

我可以向SLURM提交"一行代码"吗? 使用来自LSF的bsub和标准的Linux实用程序xargs,我可以轻松地提交一个单独的作业来解压目录中的所有文件: ls *.gz | sed 's/.gz$//g' | xargs -I {} bsub 'gunzip -c {}.gz >...

9得票1回答
有没有一种方法可以通过 slurm 确定节点上有多少个 GPU?

我正在使用一个名为SLURM的工作负载管理器,我们的节点配备有4个GPU。 节点有几种可能的状态: 分配(所有计算资源都已分配) 混合(部分资源已分配) 空闲(没有计算资源被分配) 确定资源利用率的规范方法是使用sinfo命令 - https://slurm.schedmd.com/...

9得票1回答
已完成的旧作业的Slurm作业状态

我想查看使用Slurm提交的一项旧作业的状态。我已经使用了'sacct -j',但是它并没有给我关于作业提交/终止日期的确切信息。我想检查作业提交的日期和时间。我尝试使用`scontrol`,但我认为它仅适用于当前正在运行/挂起的作业,而不适用于已经完成的旧作业。如果有人能为我建议一个Slur...

9得票1回答
在SLURM中指定多个GRES类型选项

我一直在使用SLURM请求特定的GPU,如下所示; --gres = gpu:TYPE:1 在我使用的集群上,有4种不同的GPU可用,每个GPU都有自己的特定gres类型。 对于某些作业,我不关心使用哪个GPU,因此可以指定: --gres = gpu:1 然而,有时我想要一些特定类...

9得票2回答
在同一节点上使用SLURM运行多个任务

我很难理解如何使用SLURM在同一节点上运行多个进程。 假设我想用100个不同的输入参数运行一个程序。例如,在我的笔记本电脑上,我会这样做: for i in `seq 100`; do ./program ${i} done 现在我可以访问一个拥有24核节点的集群。因此,我想同时...

8得票1回答
在文件输出中使用SBATCH作业名称作为变量

使用SBATCH,您可以使用以下语法在自动生成的输出文件中使用作业ID:%j: #!/bin/bash # omitting some other sbatch commands here ... #SBATCH -o slurm-%j.out-%N # name of the stdou...