7得票4回答
Tensorflow随机停止训练并在GPU上挂起

当我在GPU上运行以下代码时,它会训练几个epoch,然后就卡住了。 被卡住的进程仍然存在,但是GPU使用率变为0%。 在下面的代码中,我正在使用来自tf.contrib.data.Dataset的Dataset API。但我也尝试过使用placeholder和feed字典方法进行训练,但是也...

46得票3回答
SLURM: 查看每个节点的核心数以及每个作业使用的核心数

我已经搜索了谷歌并阅读了文档。 我的本地集群正在使用SLURM。我想要检查以下内容: 每个节点有多少个核心? 队列中的每个作业预留了多少个核心? 任何建议都将不胜感激!

10得票3回答
Slurm中的GPU分配:--gres vs --gpus-per-task,mpirun vs srun

在Slurm中,分配GPU有两种方式:一种是使用通用的--gres=gpu:N参数,另一种是使用像--gpus-per-task=N这样的特定参数。在批处理脚本中启动MPI任务也有两种方式:一种是使用srun,另一种是使用通常的mpirun(当OpenMPI编译支持Slurm时)。我发现这些方...

75得票7回答
通过sbatch传递命令行参数

假设我有以下简单的bash脚本,我想通过SLURM将其提交到批处理服务器: #!/bin/bash #SBATCH -o "outFile"$1".txt" #SBATCH -e "errFile"$1".txt" hostname exit 0 在这个脚本中,我只想将hostna...

20得票4回答
是否可以配置sbatch的默认输出文件目录?

有没有办法配置除当前目录以外的另一个默认目录用于sbatch生成的文件slurm-%j.out(或slurm-%A_%a.out)当未指定-o参数时? 我想要实现以下两个目标: 1. 将所有由sbatch生成的默认输出文件统一放置在一个位置; 2. 避免将这些文件混杂在当前目录中。 我曾...

9得票1回答
SLURM sbatch 输出缓冲

我创建了一些 slurm 脚本,然后尝试使用 sbatch 执行它们。但输出文件更新不够频繁(可能每分钟更新一次)。 有没有办法在 sbatch 中更改输出缓冲延迟?我知道 stdbuf 在这种情况下被使用,但我无法让它与 sbatch 协同工作。

12得票3回答
如何在 slurm 作业(使用 srun 开始)完全结束前暂停脚本?

我正在使用SLURM运行一个作业数组,以下是我使用sbatch job_array_script.sh [args]运行的作业数组脚本: #!/bin/bash #SBATCH ... other options ... #SBATCH --array=0-1000%200 srun ...

17得票2回答
如何将最高优先级设置为Slurm作业?

作为管理员,我需要给予某个任务最高的优先级。 我发现像 --priority=<value> 或者 --nice[=adjustment] 的提交选项可能很有用,但是我不知道应该给它们分配什么值才能为任务提供最高的优先级。 另一种方法可能是将所有任务默认设置为低优先级,对特殊任...

7得票2回答
在Slurm中,作业数组规范无效。

我正在Slurm中提交一项玩具数组作业。我的命令行是: $ sbatch -p development -t 0:30:0 -n 1 -a 1-2 j1 j1是脚本文件: #!/bin/bash echo job id is $SLURM_JOB_ID echo array job i...

12得票1回答
SLURM作业历史记录:获取完整的作业名称

我想要获取关于我在SLURM作业方面的工作历史信息。我使用类似以下命令:sacct --starttime 2014-07-01 --format=User,JobID,Jobname,partition,state,time,start,end,elapsed,MaxRss,MaxVMSiz...