当运行SLURM命令"squeue"时,提到了"AssocGrpNodeLimit"是什么意思?

4
< p >什么是AssocGrpNodeLimitsqueue命令显示它作为“原因”我的作业尚未运行。我很惊讶,因为一些节点是空闲的。我的优先级是我见过的最高优先级(2126)。我已经在Google和Bing上搜索过了,并在slurm_protocol_defs.c中找到了它作为返回值:

/* Given a job's reason for waiting, return a descriptive string */
extern char *job_reason_string(enum job_state_reason inx)
{

...

case WAIT_ASSOC_GRP_NODE:
        return "AssocGrpNodeLimit";

根据“AssocGrpNodeLimit”中的单词和单词片段,我猜测与我属于同一组的某个人使用了过多的节点,因此我的作业无法运行?

1个回答

3
AssocGrpNodeLimit是提交作业的关联组节点数的限制。
您可以使用sacctmgr show assoc检查限制,如果未受管理员限制,还可以使用squeue -A 列出特定帐户的作业。

来自http://slurm.schedmd.com/sacctmgr.html的术语association的定义(原文中有强调):

基于四个参数记录Slurm帐户信息,形成所谓的association。这些参数是userclusterpartitionaccountuser是登录名。cluster是由slurm.conf配置文件中的ClusterName参数指定的Slurm管理的群集的名称。partition是该群集上的Slurm分区的名称。account是作业的银行帐户。


原来管理员们正准备重新启动集群,所以他们阻止了任何新的作业开始。 - Christopher Bottoms
那不是防止作业启动的最佳方式。设置分区会更具信息性。 - Carles Fenoy
这会将正在运行作业的节点置于排空模式吗? - Christopher Bottoms
不会,但它会阻止任何新的作业开始。 - Carles Fenoy
在我看来,最好的方法是为根节点创建一个预留空间。这样,节点可以一直使用到最后时刻,进行短期任务。 - damienfrancois

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接