1개 답변
- 최신
- 최다 투표
- 가장 많은 댓글
0
【以下的回答经过翻译处理】 嗨@blakem,
我确认第一个问题是由于头节点缺少GPU。要在其中一个计算节点内进行实验,您可以提交作业,检索节点主机名,然后在作业正在运行时使用SSH连接到该节点:
[ec2-user@ip-10-0-0-33 ~]$ sbatch --wrap "sleep 100"
Submitted batch job 1
[ec2-user@ip-10-0-0-33 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
1 queue1 wrap ec2-user R 0:03 1 queue1-dy-queue1-t2medium-1
[ec2-user@ip-10-0-0-33 ~]$ ssh queue1-dy-queue1-t2medium-1
进入计算节点后,您可以尝试手动在其中安装软件包。如果按预期工作,则可以使用 OnNodeConfigured
自定义引导操作自动安装软件包:https://docs.aws.amazon.com/parallelcluster/latest/ug/custom-bootstrap-actions-v3.html
恩里科
관련 콘텐츠
- 질문됨 3달 전
- AWS 공식업데이트됨 일 년 전
- AWS 공식업데이트됨 3년 전
- AWS 공식업데이트됨 일 년 전