14得票3回答
SLURM显示未完成作业的标准输出和标准错误信息

我曾经使用带有LSF的服务器,但现在我刚刚转换到一个带有SLURM的服务器。 在SLURM中,bpeek(用于LSF)的等效命令是什么? bpeek bpeek 显示未完成作业的stdout和stderr输出 我无法找到任何文档。如果您有关于SLURM的好参考资料,请让我知道。谢谢!

13得票1回答
在SLURM中运行二进制文件而无需顶级脚本

在SGE/PBS中,我可以像在本地一样提交二进制可执行文件到集群。例如:qsub -b y -cwd echo hello 我想提交一个名为echo的作业,它会将单词"hello"写入其输出文件。我该如何向SLURM提交类似的作业?SLURM要求在文件的第一行具有hash-bang解释器。在S...

13得票3回答
在Slurm上使用Python的多进程技术

我正在尝试在Slurm上运行一些并行代码,其中不同的进程不需要通信。我最初使用了Python的Slurm包。但是,似乎我只使用了一个节点上的CPU。 例如,如果我有4个节点,每个节点有5个CPU,那么我将只同时运行5个进程。如何告诉多处理模块在不同的节点上运行? Python代码如下:im...

13得票1回答
Slurm服务器上“空闲”旁边带有星号

我正在使用 Slurm。 当我运行 通常会看到一个服务器被指定为“idle”,但有时也会在其附近看到一个小星号(像这样:idle*)。 那是什么意思? 我找不到任何关于它的信息。(服务器已经启动和运行)。

13得票2回答
解决SLURM "sbatch: error: Batch job submission failed: Requested node configuration is not available"错误

我们在本地集群上有4个GPU节点,每个节点都配备有2个36核的CPU和200GB的内存。当我试图提交以下配置的作业时:#SBATCH --nodes=1 #SBATCH --ntasks=40 #SBATCH --cpus-per-task=1 #SBATCH --mem-per-cpu=15...

13得票1回答
使用Apache Airflow提交和监控SLURM作业

我正在使用Slurm作业调度程序在集群上运行我的作业。使用Apache Airflow提交Slurm作业并检查其状态的最有效方法是什么? 我能够使用SSHOperator远程提交我的作业并每分钟检查其状态,直到完成,但我想知道是否有更好的方法。以下是我编写的SSHOperator。sshHo...

13得票1回答
SLURM:更改正在运行的任务数组作业的同时运行任务的最大数量

我设置了一个数组作业,如下: sbatch --array=1:100%5 ... 该作业现在正在运行,将同时运行任务的数量限制为5。我想将此数字更改为10(即希望运行sbatch --array=1:100%10 ...)。 数组作业文档提到您可以使用scontrol在作业启动后更改...

12得票3回答
如何在 slurm 作业(使用 srun 开始)完全结束前暂停脚本?

我正在使用SLURM运行一个作业数组,以下是我使用sbatch job_array_script.sh [args]运行的作业数组脚本: #!/bin/bash #SBATCH ... other options ... #SBATCH --array=0-1000%200 srun ...

12得票1回答
SLURM作业历史记录:获取完整的作业名称

我想要获取关于我在SLURM作业方面的工作历史信息。我使用类似以下命令:sacct --starttime 2014-07-01 --format=User,JobID,Jobname,partition,state,time,start,end,elapsed,MaxRss,MaxVMSiz...

11得票1回答
在Ubuntu 16.04桌面上安装/模拟SLURM:slurmd无法启动

编辑 我真正想寻找的是一种模拟SLURM的方法,这种方法是交互式的,用起来相对友好,并且我可以在本地安装它。 原帖 我想在Ubuntu 16.04的本地机器上测试一些最简单的SLURM示例。我正在按照我能找到的最新的slurm安装指南进行操作,并已经进展到“使用sudo /etc/i...