Um dos nós do meu cluster do Amazon OpenSearch Service está inativo. Ou meus nós do OpenSearch Service continuam falhando.
Resolução
Os nós de cluster com falha podem ocorrer porque a alta pressão da máquina virtual Java (JVM) ou o alto uso da CPU sobrecarregam o nó. A falha do nó do cluster também ocorre quando falhas de hardware causam falhas na verificação de integridade.
Verificar se há nós com falha
Conclua as etapas a seguir:
- Abra o console do OpenSearch Service.
- No painel de navegação, em Clusters gerenciados, escolha Domínios.
- Selecione seu domínio do OpenSearch Service.
- Escolha a guia Integridade do cluster e, em seguida, Nós. Se o número de nós for menor do que o número que você configurou para seu cluster, então um nó está inativo.
Observação: a métrica Nós pode ser imprecisa durante alterações na configuração do cluster ou na manutenção de rotina do serviço. Esse comportamento é esperado.
Identificar e solucionar problemas de nós sobrecarregados
A alta pressão da CPU e da JVM pode levar à perda de nós no cluster devido ao alto tráfego. Quando um nó não consegue gerenciar a carga, ele pode parar de responder e travar.
Para solucionar esse problema, reinicialize o nó. Certifique-se de cumprir os requisitos de reinicialização do nó.
Se os problemas persistirem, verifique e reduza a utilização da CPU e a pressão da memória da JVM em seu cluster do OpenSearch Service.
Identificar e solucionar problemas de falha de hardware
Falhas de hardware podem afetar a disponibilidade dos nós do cluster. O OpenSearch Service realiza verificações periódicas de integridade em cada nó. Se um nó falhar nas verificações de integridade, o OpenSearch Service permitirá que ele integre novamente o cluster ou o substituirá automaticamente por um nó novo e íntegro.
Usar a replicação para reduzir o risco de perda de dados
Execute o comando a seguir para ativar réplicas dos seus índices para servir como backup caso o OpenSearch Service substitua um nó que falhou:
curl -XPUT 'domain-endpoint/indexname/_settings' -H 'Content-Type: application/json' -d'{ "index" : { "number_of_replicas" : 0 }}
Observação: substitua domain-endpoint pelo endpoint do domínio e indexname pelo nome do índice.
Os fragmentos de réplica fornecem redundância de dados e permitem que o cluster continue atendendo às solicitações mesmo que um fragmento primário fique indisponível. É uma prática recomendada configurar pelo menos uma réplica para cada índice. Clusters com vários nós sem fragmentos de réplica correm o risco de perda de dados. Para mais informações, consulte Sizing Amazon OpenSearch Service domains (Dimensionamento de domínios do Amazon OpenSearch Service).
É uma prática recomendada usar mais de um nó de dados em cada cluster. Não é possível usar fragmentos de réplica para clusters com nó único porque não é possível atribuir fragmentos primários e de réplica ao mesmo nó. Se o nó falhar, você terá perda de dados. Isso ocorre mesmo que tenha ativado um controle de acesso refinado em seu cluster. Se seu cluster com nó único falhar, use um snapshot de índice para restaurar os dados perdidos.
Importante: você só pode recuperar os dados capturados em seu snapshot mais recente.
Configurar um domínio com várias zonas de disponibilidade
Quando você configura um domínio com várias zonas de disponibilidade, o OpenSearch Service inicia nós de dados em várias zonas de disponibilidade. O OpenSearch Service distribui fragmentos primários e seus fragmentos de réplica correspondentes para diferentes zonas de disponibilidade. Se houver uma falha em um nó ou zona, seus dados ainda estarão disponíveis.
Informações relacionadas
Melhores práticas operacionais para o Amazon OpenSearch Service
Como faço para melhorar a tolerância a falhas do meu domínio do OpenSearch Service?
Como faço para aumentar a escala verticalmente ou horizontalmente de um domínio do OpenSearch Service?
Por que meu domínio do OpenSearch Service está preso no estado ?"Modifying"