ParallelCluster 节点故障

0

【以下的问题经过翻译处理】 当使用带有 c6g-medium 按需机器的分区运行并行集群时,其中 19 个在运行期间失败并且再也没有启动。

我的信息返回:

分区可用时间限制节点状态节点列表
c6gm-ondemand up infinite 19 idle% c6gm-ondemand-dy-c6gmedium-[32-50]
c6gm-ondemand up infinite 31 alloc c6gm-ondemand-dy-c6gmedium-[1-31]

虽然 sacct 包含以下条目:

12033 2022_6_39+ c6gm-onde+ 1 NODE_FAIL 0:0
12034 2022_6_40+ c6gm-onde+ 1 NODE_FAIL 0:0
12037 2022_6_43+ c6gm-onde+ 1 NODE_FAIL 0:0
12039 2022_6_45+ c6gm-onde+ 1 NODE_FAIL 0:0
12040 2022_6_46+ c6gm-onde+ 1 NODE_FAIL 0:0

有谁知道我如何找出导致这些节点失败并且再也无法启动的原因?其他 31 个按需节点一直在运行与 19 个故障节点类似的任务,没有出现问题。另外,有没有办法以某种方式重新启动19个失败的节点?我真的很想并行运行 50 个节点,而不是 31 个。

编辑:我的 squeue 包含数百个要在该分区的节点上运行的“PENDING”作业,所以我有点困惑为什么“idle%”节点没有再次启动。

profile picture
EXPERTE
gefragt vor 6 Monaten26 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 看起来您仅使用了31个节点,其余19个节点没有使用。您的工作负载是什么样子的(例如: 运行需要50个节点的作业,运行需要1个节点的50个作业)?ParallelCluster仅为运行队列中的作业所需的实例提供资源,以利用云的弹性并确保您不支付空闲资源的费用。如果您转到CloudWatch,应该会有一个名为/aws/parallelcluster/<StackName>的CloudWatch日志组,其中StackName是您ParallelCluster堆栈的名称。如果已经分配但失败,则其中应该有每个节点的日志。如果它们在分配之前失败,您需要查看头节点的日志,slurm_resume.log条目中可能会有有用的信息。在分配之前失败也可能表明出现错误,例如超出实例数量限制(您可以在此处增加限制:https://aws.amazon.com/premiumsupport/knowledge-center/ec2-instance-limit/)

profile picture
EXPERTE
beantwortet vor 6 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen