Amazon EMR 클러스터 문제를 감지하고 진단하려면 어떻게 해야 합니까?

3분 분량
0

Amazon EMR 클러스터에서 가장 자주 발생하는 오류 또는 예외를 감지하여 해결하려고 합니다. 또한 Amazon Simple Storage Service(Amazon S3) 위치에 있는 EMR 로그를 사용하여 클러스터를 추가로 진단하고 문제를 해결하려고 합니다.

간략한 설명

Amazon S3 위치에 있는 Amazon EMR 로그를 분석하려면 Amazon Athena와 함께 AWSSupport-DiagnoseEMRLogsWithAthena AWS Systems Manager Automation 런북을 사용하십시오. 런북을 사용하여 EMR 클러스터에서 문제의 원인을 파악하고 해결하십시오.

해결 방법

자동화 런북 실행

AWSSupport-DiagnoseEMRLogsWithAthena 런북을 시작하기 전에 AWS Identify and Access Management(IAM) 사용자 또는 역할에 필요한 권한이 있는지 확인하십시오. AutomationAssumeRole 파라미터가 런북을 사용하는 데 필요한 작업을 보려면 AWSSupport-DiagnoseEMRLogsWithAthena를 참조하십시오.

런북을 시작하려면 다음 단계를 수행하십시오.

  1. Systems Manager 콘솔에서 AWSSupport-DiagnoseEMRLogsWithAthena를 엽니다.
  2. **Execute automation(자동화 실행)**을 선택합니다.
  3. 다음 값을 입력합니다.
    AutomationAssumeRole: Systems Manager Automation이 사용자를 대신하여 작업을 수행할 수 있도록 하는 IAM 역할의 Amazon 리소스 이름(ARN)입니다. 역할이 지정되지 않은 경우, Systems Manager Automation은 이 런북을 시작하는 사용자의 권한을 사용합니다.
    ClusterID: Amazon EMR 클러스터 ID입니다.
    (선택 사항) S3LogLocation: EMR 로그의 Amazon S3 위치입니다. 클러스터가 60일 이상 종료된 경우 이 파라미터를 제공하십시오.
    S3BucketName: Athena 쿼리 출력을 수신하는 Amazon S3 버킷의 이름입니다. 버킷에는 Block Public Access(퍼블릭 액세스 차단)이 켜져 있어야 합니다. 버킷은 클러스터와 동일한 AWS 리전 및 AWS 계정에 있어야 합니다.
    Approvers: 작업을 승인하거나 거부할 수 있는 AWS 인증 보안 주체의 목록입니다.
    (선택 사항) FetchNodeLogsOnly: 기본값은 false입니다. Amazon EMR 애플리케이션 컨테이너 로그의 진단을 자동화하려면 값을 true로 설정하십시오.
    (선택 사항) FetchContainersLogsOnly: 기본값은 false입니다. Amazon EMR 컨테이너 로그의 진단을 자동화하려면 값을 true로 설정하십시오.
    (선택 사항)EndSearchDate: 로그 검색 종료 날짜입니다.
    (선택 사항) DaysToCheck: EndSearchDate 값을 설정하는 경우 로그를 소급 검색하는 데 걸리는 일수를 결정하려면 DaysToCheck가 필요합니다. 최대값은 30일입니다.
    (선택 사항) SearchKeywords: 로그에서 검색할 키워드 목록으로, 쉼표로 구분됩니다.
    참고: 키워드에는 작은따옴표 또는 큰따옴표를 넣지 마십시오.
  4. **Execute(실행)**를 선택합니다.
  5. Outputs(출력) 섹션에서 자세한 결과를 검토합니다.

출력에서는 다음과 같은 Athena Data Manipulation Language(DML) 쿼리 결과에 대한 링크를 제공합니다.

  • Amazon EMR 클러스터 로그의 모든 오류 및 예외(해당 로그 위치 포함)
  • Amazon EMR 로그와 일치하는 알려진 고유한 예외의 요약
  • Amazon S3 로그 경로에 나타나는 특정 오류 및 예외의 위치

자동화 런북 문제 해결

다음 조치를 취하십시오.

  • 클러스터 로그 크기가 기본 설정보다 크기 때문에 기본 Athena DML 쿼리가 시간 초과되면 자동화에 실패할 수 있습니다. 이 문제를 해결하려면 Athena Service Quotas 콘솔**에서 **DML query timeout(DML 쿼리 시간 제한)을 늘립니다. 그런 다음, 자동화를 다시 실행합니다.
  • 클러스터를 종료하고 60일이 넘은 경우에는 런북에서 클러스터를 설명하거나 Amazon S3 로그 위치를 가져오지 않습니다. 이 문제를 해결하려면 클러스터의 Cluster-IdS3LogLocation 파라미터를 입력했는지 확인하십시오.

관련 정보

AWS Support Automation Workflow(SAW)

자동화 실행

자동화 설정

AWS 공식
AWS 공식업데이트됨 3달 전