AWS Database Migration Service(AWS DMS) 복제 인스턴스의 재시작 또는 장애 조치 문제를 해결하고 싶습니다.
간략한 설명
AWS DMS 복제 인스턴스가 자동으로 재시작되는 이유는 다음과 같습니다.
- 기본 인스턴스에 네트워크 연결 끊김, 컴퓨팅 유닛 문제 또는 스토리지 문제와 같은 인프라 문제가 있습니다.
- 수직적 스케일링 활동의 결과로 인스턴스 클래스 유형이 변경되었습니다.
- 인스턴스 호스트에서 특정 유지 관리 기간 동안 진행되는 소프트웨어 패치가 있습니다. 자세한 내용은 복제 엔진 버전 사용을 참조하십시오.
- 재부팅 또는 계획된 장애 조치로 재부팅 옵션을 사용하여 인스턴스 수동 재부팅을 실행했습니다.
복제 인스턴스가 문제 발생으로 인해 AWS DMS 상태 확인에 응답하지 못하면 AWS DMS가 자동으로 복구 또는 장애 조치를 시작합니다. 단일 AZ 배포의 경우 AWS DMS가 복구를 시작합니다. 다중 AZ 배포의 경우 AWS DMS가 장애 조치를 시작합니다. 그러면 AWS DMS가 복제 인스턴스를 다시 시작하며, 사용자가 데이터베이스 마이그레이션 작업을 수동으로 재개할 수 있습니다.
해결 방법
AWS DMS 이벤트를 검토하여 근본 원인 파악
인스턴스 재시작 또는 장애 조치의 원인을 파악하려면 지난 24시간 동안의 AWS DMS 이벤트를 확인하십시오. AWS DMS 콘솔을 열고 이벤트를 선택합니다.
참고: 기본적으로 AWS DMS는 UTC 시간대로 이벤트를 등록합니다.
이벤트를 장기간 저장하려면 AWS DMS 이벤트를 Amazon EventBridge로 전송하십시오. 자세한 내용은 AWS DMS 운영 이벤트 처리를 위한 자동화된 접근 방식 구현을 참조하십시오.
Replication 인스턴스가 패치되었다는 이벤트 메시지가 표시된다면 엔진 버전이 복제 인스턴스로 업그레이드된 것입니다. 업그레이드는 인스턴스 수정 직후 또는 예정된 유지 관리 기간 중에 발생할 수 있습니다.
인스턴스 클래스 유형이 변경되면 The replication instance class for this replication instance is being changed 또는 The replication instance class for this replication instance has changed라는 이벤트 메시지가 표시됩니다. 규모 조정 작업 중에는 몇 분 동안 단일 AZ 배포를 사용할 수 없습니다. 장애 조치 기간 동안에는 다중 AZ 배포를 사용할 수 없습니다. 장애 조치는 보통 60초가 걸립니다. AWS DMS는 새로 크기가 조정된 데이터베이스가 장애 조치되기 전에 대기 데이터베이스를 업그레이드합니다.
Multi-AZ instance failover started 또는 Multi-AZ instance failover completed 이벤트 메시지가 표시되는 이유는 다음과 같습니다.
- 기본 복제 인스턴스가 응답하지 않습니다.
- 재부팅 또는 계획된 장애 조치로 재부팅 옵션을 사용하여 인스턴스를 수동으로 재부팅했습니다.
- 복제 인스턴스에서 기본 호스트의 네트워크 문제가 간헐적으로 발생합니다.
향상된 모니터링 대시보드를 사용하여 AWS DMS 지표 모니터링
AWS DMS는 향상된 모니터링 대시보드에서 Amazon CloudWatch Logs로 지표를 제공합니다. 복제 인스턴스 로그에서 성능, 리소스 사용률 및 상태 지표를 확인하십시오.
참고: AWS DMS 서버리스 복제는 향상된 모니터링을 지원하지 않습니다.
다중 AZ 배포를 활성화하여 다운타임 축소
다운타임을 줄이려면 다중 AZ 배포를 활성화하십시오. 다중 AZ 배포에서는 복제 인스턴스의 대기 복제본을 다른 가용 영역에서 사용할 수 있습니다. 자세한 내용은 AWS Database Migration Service의 복원력을 참조하십시오.
참고: Amazon Simple Storage Service(Amazon S3)를 대상으로 사용하는 인스턴스의 경우 AWS DMS가 S3 버킷에 중복 레코드를 쓸 수 있습니다. 이 문제는 재시작 또는 장애 조치 후 작업을 재개하고 TargetTablePrepMode가 DO_NOTHING으로 설정된 경우에 발생합니다.
관련 정보
AWS Database Migration Service(AWS DMS) 모범 사례
AWS DMS 복제 인스턴스 작업