Ir para o conteúdo

Por que meu cluster do Amazon MSK está entrando no estado de RECUPERAÇÃO?

4 minuto de leitura
0

Quero solucionar problemas com meu cluster do Amazon Managed Streaming for Apache Kafka (Amazon MSK) que está no estado de RECUPERAÇÃO.

Resolução

Seu cluster Amazon MSK entra no estado de RECUPERAÇÃO quando o serviço executa uma operação interna para resolver um problema. Por exemplo, quando seus agentes não respondem e o Amazon MSK executa uma operação interna para corrigi-los.

É possível continuar usando o cluster para produzir e consumir dados mesmo quando ele estiver no estado de RECUPERAÇÃO. No entanto, não é possível realizar operações de atualização da API do Amazon MSK ou da AWS Command Line Interface (AWS CLI) no cluster até que ele retorne ao estado ATIVO.

É possível usar as Amazon CloudWatch Metrics no Amazon MSK para descobrir por que o cluster está no estado de RECUPERAÇÃO.

Conclua as etapas a seguir:

  1. Abra o console do Amazon CloudWatch.
  2. No painel de navegação, selecione Métricas e, em seguida, clique em Todas as métricas.
  3. Na guia Procurar, selecione AWS/Kafka.
  4. Em Métricas, clique em Nome do cluster.
  5. Selecione o cluster que você deseja monitorar.
    Observação: se você observar picos na métrica ActiveControllerCount ou OfflinePartitionsCount, eles indicam que um ou mais agentes não estão íntegros. Os agentes não íntegros podem ter feito com que seu cluster entrasse no estado de RECUPERAÇÃO.
  6. Para verificar métricas em nível de agente, em Métricas, selecione ID do agente, Nome do cluster.
  7. Na lista, selecione as entradas com o nome do cluster e as métricas CpuUser e CpuSystem.
  8. Verifique se a soma dos valores CpuUser e CpuSystem para todas as entradas atinge uma média de 60% ou mais para o cluster. Se a média for maior que 60%, a alta utilização da CPU pode ter feito com que o agente entrasse no estado de RECUPERAÇÃO. Para obter mais informações, consulte Monitorar uso da CPU.

Um cluster do Amazon MSK também pode entrar no estado de RECUPERAÇÃO por um dos seguintes motivos:

  • Um nó ou um volume do Amazon Elastic Block Store (Amazon EBS) deve ser substituído pelo Amazon MSK devido a uma falha de hardware.
  • Um nó não atende ao SLA de desempenho do Amazon MSK para o agente e o Amazon MSK deve substituir o nó para obter um desempenho eficiente.

O Amazon MSK é um serviço totalmente gerenciado, portanto, os agentes têm fluxos de trabalho autogerenciados que realizam ações corretivas sozinhos. Por exemplo, quando um volume do Amazon EBS em um agente se torna não íntegro, o Amazon MSK observa o estado do volume por um determinado período de tempo. Se o volume se tornar íntegro durante esse período, o AWS MSK não tomará nenhuma ação. Se o volume continuar não íntegro após esse período, o Amazon MSK substituirá automaticamente esse volume. O cluster entra no estado de RECUPERAÇÃO quando o Amazon MSK realiza essas ações. No entanto, o cluster do Amazon MSK está disponível desde que você siga as práticas recomendadas.

Seu cluster do Amazon MSK está no estado de RECUPERAÇÃO permanentemente

O workload no cluster está alto

Se o workload no cluster estiver alto e o AWS MSK substituir continuamente os agentes, seu cluster poderá entrar em um estado de RECUPERAÇÃO permanentemente. Para evitar um alto workload no cluster, não use instâncias t3.small para hospedar clusters de produção. Se você usa instâncias m5, certifique-se de escolher o tamanho correto para seu cluster. Para descobrir o tamanho correto do seu cluster com base no seu workload, monitore seu uso da CPU, a contagem de partições ou a throughput.

Além disso, certifique-se de que o número de partições por agente não exceda o valor recomendado.

O grupo do Auto Scaling não pode abrir uma nova instância

Se houver um problema interno, como uma dependência ausente, o grupo do Auto Scaling não poderá abrir uma nova instância e seu cluster entrará em um estado de RECUPERAÇÃO permanentemente.

Por exemplo, é possível acessar por mais tempo a chave do AWS Key Management Service (AWS KMS) que você especificou durante a criação do cluster.

Um evento interno afeta a disponibilidade da instância do EC2

Seu cluster também pode entrar em um estado de RECUPERAÇÃO permanentemente por um dos seguintes motivos:

  • Um evento interno afeta a disponibilidade das instâncias subjacentes do Amazon Elastic Compute Cloud (Amazon EC2).
  • Um evento interno causa latência do Amazon EBS em uma Zona de disponibilidade ou região da AWS.

Se seu cluster permanecer no estado de RECUPERAÇÃO permanentemente e não for resultado de altos workloads, entre em contato com o AWS Support.

Informações relacionadas

Entenda os estados do cluster provisionado pelo MSK

Boas-vindas ao Guia do desenvolvedor do Amazon MSK

Monitore um cluster provisionado do Amazon MSK

Práticas recomendadas para clientes Apache Kafka

AWS OFICIALAtualizada há 5 meses