모델 훈련을 위한 FSx for Luster 배포 유형 문의 드립니다.

0

Amazon GPU Instance에 Amazon FSx for Luster를 연결하여 분산 모델 훈련을 하려고 합니다. FSx for Luster 구성 시 어떤 부분을 고려해야 하나요? 성능/비용 모두 중요합니다.

질문됨 2달 전262회 조회
1개 답변
1
수락된 답변

안녕하세요.

아래 링크를 보시면 Lustre의 선택 가능한 배포 유형과 제공되는 성능을 확인할 수 있습니다.
https://docs.aws.amazon.com/ko_kr/fsx/latest/LustreGuide/performance.html

HSM 기능 사용이나 GPU instance에서의 분산/병렬 훈련 방식, 데이터 사이즈 등에 따라 Lustre 배포 유형에 차이는 있으나, 기본적으로 Lustre의 용량은 OST(오브젝트 스토리지 타켓)로 구성이 되며, 각 OST 용량은 배포 유형에 따라 1.1~2TiB 입니다. 각 배포 유형의 성능에서 프로비저닝 된 스토리지를 OST 수로 볼 수가 있으며, 이에 따라 제공되는 성능이 결정이 됩니다.

예로 배포 유형을 “Persistent, SSD-250”으로 4TiB를 구성 시, 1.1TiB OST 4개가 생성이 되고 OST 당 디스크 처리량은 Baseline 250MBps, Burst 500MBps & 네트워크 처리량은 Baseline 640MB/s, Burst 1300MB/s 를 제공합니다. 즉, 전체 디스크 처리량은 Baseline 1GBps (250MBps x 4 OST), Burst 2GBps (500MBps x 4 OST) 를 제공하고, 전체 네트워크 처리량은 Baseline 2.5GB/s, Burst 5.2GB/s 가 됩니다.

Data를 GPU 인스턴스 Memory로 한번에 upload하는 경우 디스크 처리량의 Burst 성능, FSx for Lustre 와의 반복적적인 traffic 은 네트워크 처리량으로 우선적으로 판단할 수 있으며 추가적으로 디스크 처리량을 높이기 위해서 압축 기능을 적용할 수 도 있습니다. 위 링크의 성능 팁 부분에서 추가 고려 사항을 확인할 수 있습니다.

감사합니다.

AWS
답변함 2달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인