Quero solucionar problemas de reinicialização ou failover da minha instância de replicação do AWS Database Migration Service (AWS DMS).
Breve descrição
Uma instância de replicação do AWS DMS é reiniciada automaticamente pelos seguintes motivos:
Quando a instância de replicação enfrenta problemas e não responde às verificações de integridade do AWS DMS, o AWS DMS inicia automaticamente uma recuperação ou um failover. Para implantações Single-AZ, o AWS DMS inicia uma recuperação. Para uma implantação Multi-AZ, o AWS DMS inicia um failover. Em seguida, o AWS DMS reinicia a instância de replicação antes que você possa retomar manualmente as tarefas de migração do banco de dados.
Resolução
Analise os eventos do AWS DMS para identificar a causa raiz
Para identificar a causa da reinicialização ou do failover da sua instância, veja os eventos do AWS DMS nas últimas 24 horas. Abra o console do AWS DMS e escolha Eventos.
Observação: Por padrão, o AWS DMS registra eventos no fuso horário UTC.
Para armazenar eventos por um longo período, envie os eventos do AWS DMS para o Amazon EventBridge. Para obter mais informações, consulte Implement an automated approach for handling AWS DMS operational events (Implementar uma abordagem automatizada para lidar com eventos operacionais do AWS DMS).
Se você ver a mensagem do evento Replication instance patched, significa que houve um upgrade da versão do mecanismo para a instância de replicação. Um upgrade pode ocorrer imediatamente após a modificação da instância ou durante a janela de manutenção programada.
Se o tipo de classe da instância mudar, você verá a mensagem de evento A classe da instância de replicação para esta instância de replicação está sendo alterada ou A classe da instância de replicação para esta instância de replicação foi alterada. As implantações Single-AZ ficam indisponíveis por alguns minutos durante uma operação de escalabilidade. As implantações Multi-AZ não estão disponíveis durante o failover. O failover geralmente leva 60 segundos. O AWS DMS faz um upgrade do banco de dados em espera antes que o banco de dados recém-dimensionado falhe.
É possível ver as mensagens de evento Failover de instância Multi-AZ iniciado ou Failover de instância Multi-AZ concluído pelos seguintes motivos:
- A instância de replicação primária não responde.
- A instância foi reinicializada manualmente com as opções Reinicializar ou Reinicializar com failover planejado.
- A instância de replicação enfrenta problemas intermitentes de rede com o host subjacente.
Monitore as métricas do AWS DMS com o painel de monitoramento aprimorado
O AWS DMS fornece métricas do painel de monitoramento aprimorado para o Amazon CloudWatch Logs. Veja o log da instância de replicação para obter métricas de desempenho, utilização de recursos e integridade.
Observação: As replicações de tecnologia sem servidor do AWS DMS não oferecem suporte ao monitoramento aprimorado.
Ative as implantações Multi-AZ para reduzir o tempo de inatividade
Para reduzir o tempo de inatividade, ative as implantações Multi-AZ. Em uma implantação Multi-AZ, uma réplica em espera da instância de replicação está disponível em uma Zona de disponibilidade diferente. Para obter mais informações, consulte Resiliência em AWS Database Migration Service.
Observação: Para instâncias que usam o Amazon Simple Storage Service (Amazon S3) como destino, o AWS DMS pode gravar registros duplicados em seu bucket do S3. Isso ocorre quando você retoma sua tarefa após uma reinicialização ou um failover e o TargetTablePrepMode está definido como DO_NOTHING.
Informações relacionadas
Práticas recomendadas para AWS Database Migration Service
Trabalhando com uma instância de replicação do AWS DMS