Parallel Cluster 中的 Slurm 进入了“drained”状态

0

【以下的问题经过翻译处理】 你好, 我正在使用parallelcluster 3.5.1和slurm,在Frankfurt地区使用c6i-largec6i-xlargec6i-2xlargec6i-4xlarge实例设置了带有4个队列的集群。队列是相同的,都已禁用HT。 我注意到使用1024个c6i-4xlarge实例的队列有时会表现出某种奇怪的行为-即使只有1个作业排队。它的节点倾向于陷入我不希望它陷入的状态,即

  • down〜-我希望idle〜
  • down#,我希望是allocated〜allocated#

此外,它需要> 20分钟才能启动实例,而其他类型通常<10分钟。 同时,Job处于PD状态,并且有一些神秘的状态描述: “(Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions)” sinfosqueue的输出如下:

$ sinfo
q8           up   infinite      1  down# q8-dy-c6i-4xlarge-8cpu-32gb-1
q8           up   infinite   1023  down~ q8-dy-c6i-4xlarge-8cpu-32gb-[2-1024]
$ squeue
             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
               176        q8   310601 flacsclo PD       0:00      1 (节点用于作业DOWN,DRAINED或已保留用于更高优先级分区的作业)

请帮我理解作业和节点所处的状态,谢谢。我在开发集群上没有遇到这样的问题,但在staging环境中我遇到了,我担心如果将该集群部署到生产环境中可能会带来成本影响

profile picture
专家
已提问 5 个月前64 查看次数
1 回答
0

【以下的回答经过翻译处理】 您好,@mfolusiak,

从日志中看到您遇到了容量不足的问题:在您选择的可用区中没有足够的可用实例来实例化计算节点。请参考ParallelCluster故障排除指南的以下部分(https://docs.aws.amazon.com/parallelcluster/latest/ug/troubleshooting-v3-scaling-issues.html#compute-node-initialization-ice-failure-v3),了解如何避免容量不足的问题。

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则