【以下的问题经过翻译处理】 你好,
我正在使用parallelcluster 3.5.1和slurm,在Frankfurt地区使用c6i-large
,c6i-xlarge
,c6i-2xlarge
和c6i-4xlarge
实例设置了带有4个队列的集群。队列是相同的,都已禁用HT。
我注意到使用1024个c6i-4xlarge
实例的队列有时会表现出某种奇怪的行为-即使只有1个作业排队。它的节点倾向于陷入我不希望它陷入的状态,即
down〜
-我希望idle〜
down#
,我希望是allocated〜
或allocated#
此外,它需要> 20分钟才能启动实例,而其他类型通常<10分钟。
同时,Job处于PD
状态,并且有一些神秘的状态描述:
“(Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions)”
sinfo
和squeue
的输出如下:
$ sinfo
q8 up infinite 1 down# q8-dy-c6i-4xlarge-8cpu-32gb-1
q8 up infinite 1023 down~ q8-dy-c6i-4xlarge-8cpu-32gb-[2-1024]
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
176 q8 310601 flacsclo PD 0:00 1 (节点用于作业DOWN,DRAINED或已保留用于更高优先级分区的作业)
请帮我理解作业和节点所处的状态,谢谢。我在开发集群上没有遇到这样的问题,但在staging环境中我遇到了,我担心如果将该集群部署到生产环境中可能会带来成本影响