1 Answer
- Newest
- Most votes
- Most comments
0
【以下的回答经过翻译处理】 看起来您仅使用了31个节点,其余19个节点没有使用。您的工作负载是什么样子的(例如: 运行需要50个节点的作业,运行需要1个节点的50个作业)?ParallelCluster仅为运行队列中的作业所需的实例提供资源,以利用云的弹性并确保您不支付空闲资源的费用。如果您转到CloudWatch,应该会有一个名为/aws/parallelcluster/<StackName>
的CloudWatch日志组,其中StackName是您ParallelCluster堆栈的名称。如果已经分配但失败,则其中应该有每个节点的日志。如果它们在分配之前失败,您需要查看头节点的日志,slurm_resume.log
条目中可能会有有用的信息。在分配之前失败也可能表明出现错误,例如超出实例数量限制(您可以在此处增加限制:https://aws.amazon.com/premiumsupport/knowledge-center/ec2-instance-limit/)
Relevant content
- asked a year ago
- Accepted Answerasked 7 months ago
- asked a year ago
- AWS OFFICIALUpdated 2 years ago
- AWS OFFICIALUpdated a year ago
- AWS OFFICIALUpdated 2 years ago
- AWS OFFICIALUpdated 3 months ago