Amazon EMR 클러스터에서 부트스트랩 작업을 실행하거나 단계를 실행하는 사용 사례는 무엇입니까?
간략한 설명
부트스트랩 작업은 EMR 클러스터에 추가 소프트웨어를 설치하는 데 사용합니다. 단계는 EMR 클러스터에 작업을 제출하거나 데이터를 처리하는 데 사용합니다.
해결 방법
부트스트랩 작업
- 부트스트랩 작업은 EMR 클러스터가 STARTING 상태에서 BOOTSTRAPPING 상태로 전환된 후 실행합니다. 부트스트랩 작업은 Hadoop 또는 Spark와 같은 핵심 서비스가 설치되기 전에 실행됩니다. 부트스트랩 작업이 실패하면 클러스터가 시작되지 않습니다. 자세한 정보는 클러스터 수명 주기 이해를 참조하세요.
- 부트스트랩 작업은 모든 클러스터 노드에서 실행됩니다. 부트스트랩 작업은 기본적으로 Hadoop 사용자로 실행되는 스크립트이지만, sudo 명령을 사용하여 루트 사용자로 실행할 수도 있습니다. instance.json 또는 job-flow.json 파일의 인스턴스별 값에 따라 조건부로 명령을 실행하도록 부트스트랩 작업을 구성할 수 있습니다.
참고: Amazon EMR 2.x 및 3.x 릴리스에서는 핵심 서비스가 설치된 후 부트스트랩 작업이 실행됩니다. Amazon EMR AMI 버전 2.x 및 3.x에 대한 사전 정의된 부트스트랩 작업은 최신 Amazon EMR 릴리스에서 지원되지 않습니다. 자세한 내용은 부트스트랩 작업을 생성하여 추가 소프트웨어 설치를 참조하세요.
단계
- 단계는 하나 이상의 Hadoop 작업을 포함하는 작업 단위입니다. 단계는 일반적으로 데이터를 전송하거나 처리하는 데 사용됩니다. 한 단계로 작업을 클러스터에 제출할 수 있습니다. 다른 단계에서는 제출된 데이터를 처리한 다음 처리된 데이터를 특정 위치로 전송할 수 있습니다.
- 단계는 부트스트랩 작업 후에 시작되고 마스터 노드에서만 실행됩니다. 자세한 내용은 단계를 실행하여 데이터 처리를 참조하세요.
- Amazon EMR 릴리스 버전 5.28.0 이상에서는 여러 단계를 병렬로 실행할 수 있습니다. 이전 Amazon EMR 릴리스 버전에서는 단계가 순차적으로 작업을 완료합니다.
- 단계를 구성할 때 단계가 실패한 후 수행할 작업을 선택할 수 있습니다.
단계에 대한 자세한 내용은 AWS CLI 및 콘솔을 사용한 단계 작업을 참조하세요.
관련 정보
StepExecutionStatusDetail
클러스터 계획 및 구성