ec2 compute 서비스가 갑자기 죽었음.

0

ec2 compute 서비스가 갑자기 죽었습니다. ssh접속도 되지않고, cpu 사용율을 보니 몇분전부터 34%에 도달해있네요, 하지만 이 수치만으로 죽기는 뭐한것같은데요. /var/message 로그를 봐도 딱히 죽을만한 사항이 없는데 어떻게 해야하나요? 에러라고 해봐야 아래의 mcelog 나 irqbalance 이런 에러인데요. 뭘 살펴봐야할까요?

Aug 21 17:24:38 ip-172-31-9-21 mcelog[792]: mcelog: Cannot read MSR_ERROR_CONTROL from /dev/cpu/0/msr Aug 21 17:24:38 ip-172-31-9-21 mcelog[792]: : Input/output error Aug 21 17:24:48 ip-172-31-9-21 /usr/sbin/irqbalance[790]: Cannot change IRQ 0 affinity: Input/output error Aug 21 17:24:48 ip-172-31-9-21 /usr/sbin/irqbalance[790]: IRQ 0 affinity is now unmanaged

질문됨 9달 전113회 조회
2개 답변
0

먼저 EC2 인스턴스의 status checks를 확인해볼 수 있습니다. Status checks를 통해 여러 원인을 확인할 수 있습니다:

시스템 상태 확인을 통해 확인할 수 있는 원인은 다음과 같습니다:

  • 네트워크 연결 끊김
  • 시스템 전원 중단
  • 물리적 호스트의 소프트웨어 문제
  • 네트워크 연결성에 영향을 주는 물리적 호스트의 하드웨어 문제

인스턴스 상태 확인을 통해 확인할 수 있는 원인은 다음과 같습니다:

  • 시스템 상태 확인 실패
  • 잘못된 네트워킹 또는 스타트업 구성
  • 메모리가 모두 사용됨
  • 파일 시스템 손상
  • 호환되지 않는 커널
  • Windows 인스턴스 인스턴스를 재부팅하는 동안 또는 Windows 인스턴스 스토어 지원 인스턴스가 번들링되는 동안 인스턴스를 다시 사용할 수 있게 될 때까지 인스턴스 상태 확인에서 실패를 보고합니다.

Status Checks에 대한 자세한 내용은 다음 문서를 참고하세요: https://docs.aws.amazon.com/ko_kr/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html

OOM 문제로 인스턴스가 다운되었을 가능성이 있습니다. 기본적으로 제공되는 CloudWatch 메트릭에서는 메모리 사용량을 확인할 수 없습니다. 메모리 사용량을 모니터링 하려면 CloudWatch Agent 설치를 고려해보세요.

https://docs.aws.amazon.com/ko_kr/AmazonCloudWatch/latest/monitoring/metrics-collected-by-CloudWatch-agent.html

메모리 문제로 인한 인스턴스 장애를 해결하기 위해 사용할 수 있는 임시적 조치는 스왑 메모리 할당입니다. EBS 볼륨에 스왑 메모리를 할당하는 것이 모범 사례는 아니지만, 임시로 해결할 수 있도록 도움을 줄 수 있습니다. 메모리 사용량 초과 문제를 장기적으로 해결하고 싶다면 인스턴스 용량 확장하거나, 메모리 부하를 줄일 수 있도록 애플리케이션을 수정하는 방법을 고려해보세요.

https://repost.aws/knowledge-center/ec2-memory-swap-file

profile picture
답변함 9달 전
  • 이 외에도, EC2에 연결된 스토리지 볼륨 공간이 부족한 경우, 버스터블 인스턴스의 CPU 크레딧이 모두 소진된 경우에도 EC2 인스턴스가 작동을 멈출 수 있습니다.

0

CPU 사용률이 30% 정도인데 데몬이 느려지거나 중단되는 경우 Burstable Instance 의 성능 제한치에 걸린 상황일 수 있습니다. t 계열의 인스턴스를 사용하시나요? CPU Credit 이 소진되지는 않았는지요? 당장 인스턴스가 동작하게 하려면 다른 인스턴스 타입으로 변경하여 띄워 보시기 바랍니다. 성능 지표들을 살펴보시고 적절한 크기의 워크로드를 운영하도록 조정해 보세요.

자세한 내용은 다음 페이지를 참고해 보시기 바랍니다. https://docs.aws.amazon.com/ko_kr/AWSEC2/latest/UserGuide/burstable-credits-baseline-concepts.html#earning-CPU-credits

답변함 9달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인