21得票1回答
SLURM节点、任务、核心和CPU

有人能够澄清这些东西实际上是什么吗?从我所了解的来看,节点是集群中的计算点,本质上是单个计算机。任务是可以在单个节点或多个节点上执行的进程。而内核基本上是您想将单个节点上的 CPU 的多少分配给执行分配给该 CPU 的任务。这正确吗?我是否混淆了什么?

21得票3回答
如何在使用交互式会话时,通过VS Code在远程计算机上运行代码的调试会话?

我正在使用一个类似于slurm的condor集群,并希望使用VS code(特别是其调试器)和remote sync extension运行我的代码。 我尝试在VS code中使用调试器来运行它,但结果并不如预期。 首先,像往常一样使用VS code和远程同步登录到集群,这个操作正常工作。...

20得票1回答
在使用Slurm中运行时更改发送到sbatch的Bash脚本是否是一个坏主意?

我想通过sbatch_run.sh脚本多次运行一个Python脚本main.py,并传入不同的参数,示例如下: #!/bin/bash #SBATCH --job-name=sbatch_run #SBATCH --array=1-1000 #SBATCH --exclude=node047...

20得票2回答
在SLURM的sbatch脚本中使用Bash变量

我正在尝试从另一个文件中获取一个值,并在SLURM提交脚本中使用它。然而,我遇到了一个错误,提示该值不是数值类型,换句话说,该值没有被引用。 这是脚本:#!/bin/bash # This reads out the number of procs based on the decompos...

20得票2回答
在Slurm集群上运行TensorFlow?

我可以访问一个计算集群,具体是一个节点,拥有两个12核CPU,正在运行 Slurm Workload Manager。 我想在该系统上运行 TensorFlow,但不幸的是,我找不到任何关于如何实现这一点或者是否可能的信息。我对此很陌生,但据我了解,我必须创建一个Slurm作业来运行Tens...

20得票4回答
是否可以配置sbatch的默认输出文件目录?

有没有办法配置除当前目录以外的另一个默认目录用于sbatch生成的文件slurm-%j.out(或slurm-%A_%a.out)当未指定-o参数时? 我想要实现以下两个目标: 1. 将所有由sbatch生成的默认输出文件统一放置在一个位置; 2. 避免将这些文件混杂在当前目录中。 我曾...

20得票3回答
Python - 记录内存使用情况

在Python 3中,有没有一种方法可以在某个程序运行时记录内存(RAM)使用情况? 一些背景信息。我在使用Slurm运行HPC集群上的仿真时,在提交作业之前必须预留一些内存。我知道我的工作需要很多内存,但我不确定需要多少。因此,我想知道是否有一种简单的解决方案来记录随时间变化的内存使用情况。

20得票2回答
Sbatch: 将作业名称作为输入参数传递

我有以下脚本用于提交slurm作业:#!/bin/sh #!/bin/bash #SBATCH -J $3 #job_name #SBATCH -n 1 #Number of processors #SBATCH -p CA nwchem $1 > $2 第一个参数($1)是我的输...

19得票2回答
SLURM:如何仅在特定节点上运行30个作业?

您需要运行30个srun作业,但要确保每个作业在特定节点列表中的一个节点上运行(这些节点具有相同的性能,以便公平比较时间)。 你该怎么做? 我尝试过: - srun --nodelist=machineN[0-3] <some_cmd> :同时在所有节点上运行<som...

18得票1回答
Slurm:在 salloc 和 srun 下执行的代码有什么区别?

我正在使用由slurm管理的集群来运行一些yarn/hadoop基准测试。为了做到这一点,我在由slurm分配的节点上启动hadoop服务器,然后在它们上面运行基准测试。我意识到这不是运行生产hadoop集群的预期方式,但必须这样做。 为了做到这一点,我首先编写了一个脚本,使用srun运行,...