Amazon Aurora PostgreSQL 호환 에디션 글로벌 데이터베이스에서 장애 조치를 수행하는 방법과 장애 조치가 실패한 이유를 알고 싶습니다.
해결 방법
Aurora 글로벌 데이터베이스의 경우 장애 조치를 수행하기 위한 두 가지 옵션이 있습니다.
- 계획되지 않은 수동 장애 조치(‘분리 및 승격’) - 이 옵션을 사용하면 계획되지 않은 운영 중단을 복구하거나 재해 복구 테스트를 수행할 수 있습니다.
- 계획된 관리형 장애 조치 - 운영 유지 관리 또는 기타 계획된 운영 절차에 이 옵션을 사용합니다.
계획되지 않은 수동 장애 조치
기본 AWS 리전에서 예상치 못한 운영 중단이 발생한 후 보조 클러스터로 장애 조치를 수행하려면 먼저 다음을 수행합니다.
- 운영 중단이 발새한 AWS 리전의 기본 Aurora DB에 대한 DML 문 및 기타 쓰기 작업 실행을 중단합니다.
- 보조 AWS 리전에서 새 기본 DB 클러스터로 사용할 Aurora DB 클러스터를 식별합니다. Aurora 글로벌 데이터베이스에 두 개 이상의 보조 AWS 리전이 있는 경우 지연 시간이 가장 적은 보조 클러스터를 선택합니다.
- Aurora 글로벌 데이터베이스에서 선택한 보조 DB 클러스터를 제거합니다.
그런 다음 계획되지 않은 수동 장애 조치를 완료하려면 다음을 수행합니다.
- 새 엔드포인트를 사용하여 이제 독립형이 된 Aurora DB 클러스터로 모든 쓰기 작업을 전송하도록 애플리케이션을 재구성합니다. Aurora 글로벌 데이터베이스를 생성할 때 제공된 이름을 수락한 경우에는 클러스터의 엔드포인트 문자열에서 -ro를 제거하여 엔드포인트를 변경합니다.
예를 들어 보조 클러스터가 Aurora 글로벌 데이터에서 분리되면 해당 클러스터의 엔드포인트 my-global.cluster-ro-aabb.us-west-1.rds.amazonaws.com은 my-global.cluster-aabb.us-west-1.rds.amazonaws.com이 됩니다.
보조 Aurora DB 클러스터에 지역을 추가하기 시작하면 해당 클러스터는 새 Aurora 글로벌 데이터베이스의 기본 클러스터가 됩니다.
- DB 클러스터에 AWS 리전을 추가하여 기본 클러스터에서 보조 클러스터로의 복제 프로세스를 시작합니다.
- 필요에 따라 AWS 리전을 더 추가하여 애플리케이션을 지원하는 데 필요한 토폴로지를 재생성합니다.
자세한 내용은 계획되지 않은 중단으로부터 Amazon Aurora 전역 데이터베이스 복구를 참조하세요.
계획된 관리형 장애 조치
Aurora 글로벌 데이터베이스의 계획된 관리형 장애 조치를 시작하려면 다음을 수행합니다.
- Amazon RDS 콘솔을 엽니다.
- **데이터베이스(Databases)**를 선택하고 장애 조치를 수행할 Aurora 글로벌 데이터베이스를 찾습니다.
- 작업(Actions) 메뉴에서 **글로벌 데이터베이스 장애 조치(Fail over global database)**를 선택합니다. 이제 장애 조치가 보류 중이 되고 장애 조치 대상을 선택할 때까지 프로세스가 시작되지 않습니다.
- 기본 클러스터로 승격하려는 보조 Aurora DB 클러스터를 선택합니다. 보조 DB 클러스터는 **사용 가능(available)**해야 합니다.
참고: 보조 DB 클러스터가 두 개 이상인 경우 모든 보조 클러스터의 지연(lag) 시간을 비교하세요. 그런 다음 지연이 가장 적은 클러스터를 선택하세요.
- **글로벌 데이터베이스 장애 조치(Fail over global database)**를 선택하여 보조 DB 클러스터 선택을 확인하고 장애 조치 프로세스를 시작합니다.
데이터베이스 목록의 상태(Status) 열에는 장애 조치 프로세스 중 각 Aurora DB 인스턴스 및 Aurora DB 클러스터의 상태가 표시됩니다.
콘솔 상단의 상태 표시줄에는 진행 상태가 표시되며 장애 조치 취소(Cancel failover) 옵션이 제공됩니다.
**장애 조치 취소(Cancel failover)**를 선택하면 장애 조치를 계속하거나 장애 조치 프로세스를 취소할 수 있는 옵션이 제공됩니다.
- **닫기(Close)**를 선택하여 장애 조치를 계속하고 화면의 메시지를 닫습니다.
장애 조치가 완료되면 데이터베이스(Databases) 목록에서 Aurora DB 클러스터와 해당 클러스터의 현재 상태를 볼 수 있습니다. 자세한 내용은 Amazon Aurora 전역 데이터베이스에 대한 계획된 관리형 장애 조치 수행을 참조하세요.
AWS Command Line Interface(AWS CLI)로 failover-Global-cluster 명령을 실행하여 계획된 관리형 장애 조치를 시작할 수도 있습니다.
장애 조치 실패 이유
다음 이유 중 하나로 인해 장애 조치가 실패할 수 있습니다.
- 소스와 대상 간의 복제 지연
- 가용 영역 장애
- 컴퓨팅 노드 장애
- DB 인스턴스 간 네트워킹 문제
- 스토리지 문제
- 대규모 이벤트
관련 정보
Amazon Aurora 글로벌 데이터베이스에서 장애 조치 사용