"AWSPremiumSupport-TroubleshootEKSCluster" 자동화 런북을 사용하여 Amazon EKS 클러스터에서 발생하는 일반적인 문제 해결 방법

4분 분량
콘텐츠 수준: 중급
0

본 기사는 AWS 지원 자동화 워크플로우(Support Automation Workflow)의 AWSPremiumSupport-TroubleshootEKSCluster 런북을 사용하여 Amazon EKS 클러스터에서 발생할 수 있는 일반적인 문제를 진단하고 해결하는 방법에 대해 설명합니다.

Amazon Elastic Kubernetes Service (EKS) 서비스는 Amazon Web Services (AWS) 환경에 Kubernetes 컨트롤 플레인을 설치, 운영 및 유지 관리할 필요가 없는 관리형 서비스입니다.

Amazon EKS 클러스터와 관련된 IAM, 네트워크 및 워커노드를 잘못 설정하면 다양한 문제를 겪을 수 있습니다. 아래 이미지와 같이 노드그룹 생성 실패는 잘못된 설정으로 인해 발생할 수 있는 일반적인 문제 중 하나입니다. 이때, AWS Support로 지원 케이스를 생성하여 문제 해결에 대한 도움을 받을 수 있지만, AWS 지원 자동화 워크플로우(Support Automation Workflow) 런북을 이용하면 AWS Support의 도움 없이 자동화된 방법으로 직접 이슈를 빠르게 해결할 수도 있습니다. 여기에 이미지 설명 입력

AWS 지원 자동화 워크플로우는 AWS Systems Manager 셀프 서비스 자동화 런북 모음입니다. 이러한 런북은 AWS Support Engineering 팀에서 고객 문제를 해결하며 배운 모범 사례를 바탕으로 작성되었습니다. 이를 통해 AWS 고객은 AWS 리소스의 일반적인 문제를 진단, 수정, 해결할 수 있습니다. 또한 네트워크 문제를 사전에 식별하고 로그 수집 및 분석의 다양한 작업을 수행할 수 있습니다. AWS 지원 자동화 워크플로우 런북은 AWS 모범 사례에 따라 수동 작업 및 관리 오버헤드, 인적 오류를 줄일 수 있습니다.

AWS 지원 자동화 워크플로우에서 제공되는 "AWSSupport-TroubleshootEKSCluster" 런북을 이용하면 Amazon EKS 클러스터에 자주 발생하는 문제에 대해서 빠르게 진단하고 해결할 수 있습니다.

단, 해당 런북에 액세스 하려면 Enterprise 또는 Business Support Subscription이 필요합니다. 자세한 내용은 AWS Support 플랜 비교를 참조하십시오.

"AWSSupport-TroubleshootEKSCluster" 런북은 사용자를 대신하여 다음과 같은 작업을 수행합니다.

  • 지정된 Amazon EKS 클러스터에 대해서 다음 항목에 대한 세부 정보를 수집합니다.
    • Amazon EKS 클러스터
    • Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스, Auto Scaling 그룹, AMI, Amazon EC2 GPU 그래픽 인스턴스 유형
    • Amazon EKS 클러스터의 Virtual Private Cloud(VPC), 서브넷, Network Address Translation(NAT) 게이트웨이, 서브넷 경로, 보안 그룹 및 네트워크 액세스 제어 목록(ACL)
    • 연결된 IAM 인스턴스 프로파일 및 역할 정책
  • Amazon VPC 서브넷을 퍼블릭 또는 프라이빗으로 분류합니다.
  • Amazon VPC 서브넷에서 Amazon EKS 클러스터의 일부로 필요한 태그가 있는지 확인합니다.
  • Amazon VPC 서브넷에서 Elastic Load Balancing 서브넷에 필요한 태그를 확인합니다.
  • 워커 노드 Amazon EC2 인스턴스가 최신 Amazon EKS 최적화 AMI 인스턴스를 사용하는지 확인합니다.
  • 워커 노드에 연결된 Amazon VPC 보안 그룹이 필요한 태그를 제공하는지 확인합니다.
  • Amazon EKS 클러스터와 워커 노드 Amazon VPC 보안 그룹 규칙에서 Amazon EKS 클러스터에 권장되는 규칙을 확인합니다.
  • Amazon VPC 서브넷의 네트워크 ACL 구성을 확인합니다.
  • 워커 노드 Amazon EC2 인스턴스에 필요한 관리형 정책이 있는지 확인합니다.
  • Auto Scaling 그룹에 클러스터 자동 스케일링에 필요한 태그가 있는지 확인합니다.
  • 워커 노드 Amazon EC2 인스턴스가 인터넷에 연결되어 있는지 확인합니다.
  • 위 진단 내용을 기반으로 보고서를 보고서를 생성합니다. S3BucketName 파라미터에 대해 값이 지정된 경우, 생성된 보고서가 Amazon S3 버킷에 업로드됩니다.

본 기사에서는 "AWSSupport-TroubleshootEKSCluster" 런북을 이용하여 Amazon EKS 클러스터에서 발생한 이슈에 대한 해결 예제를 제공합니다.

문제 해결 예시

  1. 문제가 발생한 Amazon EKS 클러스터명을 확인합니다.

  2. AWS Systems Manager 콘솔로 이동하여 왼쪽 네비게이션에서 자동화(Automation)를 선택합니다.

  3. 오른쪽의 자동화 실행(Execute automation) 버튼을 클릭합니다.

  4. 중앙의 자동화 런북에서 "AWSSupport-TroubleshootEKSCluster"을 검색하고 선택한 뒤 하단에서 다음(Next)을 클릭합니다.

  5. 기본적으로 단순 실행(Simple execution)으로 선택됩니다. 입력 파라미터 섹션에서 필요한 정보를 입력합니다. 예는 다음과 같습니다.

    • ClusterName(필수): 문제가 발생한 EKS 클러스터명을 입력합니다.
    • AutomationAssumeRole(선택): System Manager에서 수임할 IAM Role을 지정합니다. 런북에서는 위에 설명한 작업들을 사용자 대신 수행하기 때문에 관련 권한이 존재해야 하며, 지정하지 않을 시 수행한 사용자의 권한으로 실행합니다.
    • S3BucketName(선택): 진단 보고서가 업로드될 Amazon S3 버킷을 지정합니다. 여기에 이미지 설명 입력
  6. 하단에 실행(Execute)을 클릭합니다.

  7. 런북이 실행되면, 위에 설명한 작업이 진행됩니다. 여기에 이미지 설명 입력

  8. 작업이 완료되면 Overall status는 Success가 되고, Outputs에서 보고서를 확인할 수 있습니다. 아래 예시와 같이 워커노드가 인터넷 게이트웨이 또는 NAT 게이트웨이로 라우팅 되지 않는 진단 내용을 참고하여 조치를 할 수 있습니다. 만약 S3BucketName 파라미터를 입력했다면, 해당 S3 버킷에 업로드 된 보고서에서 같은 내용을 확인할 수 있습니다. 여기에 이미지 설명 입력

만약, 이와 같이 AWS 지원 자동화 워크플로우 런북을 진행하였으나 이슈가 해결되지 않을 경우, AWS Support 에 문의하여 계속 문제 해결을 시도할 수 있습니다. 이때, 앞서 실행하신 지원 자동화 워크플로우 런북 실행 ID가 포함된 케이스를 열어 주시면 빠른 지원에 도움이 됩니다.  

profile pictureAWS
지원 엔지니어
게시됨 25일 전927회 조회
댓글 없음

관련 콘텐츠