Ir para o conteúdo

Como posso resolver erros “Exit status: -100. Diagnostics: Contêiner lançado em um nó perdido” no Amazon EMR?

4 minuto de leitura
0

Meu trabalho do Amazon EMR falha com a mensagem de erro “Contêiner lançado em um nó perdido”.

Breve descrição

Quando o Amazon EMR encerra um nó central ou de tarefa devido à alta utilização do espaço em disco, é possível receber o seguinte erro:

“ExecutorLostFailure (executor 12 exited caused by one of the running tasks) Reason: Container marked as failed: container_1572839353552_0008_01_000002 on host: ip-##-###-##-## Exit status: -100. Diagnostics: Container released on a lost node”

Também é possível receber o erro anterior quando um nó deixa de responder devido à alta utilização prolongada da CPU ou à pouca memória disponível.

A resolução a seguir fornece etapas para resolver o erro que você recebe quando fica sem espaço em disco e sua métrica MR unhealthy nodes apresenta nós não íntegros.

Resolução

Quando o uso do disco em um disco do nó central ou de tarefa, por exemplo, /mnt ou /mnt1 excede 90%, o disco se torna não íntegro. Se menos de 25% dos discos de um nó estiverem íntegros, o YARN ResourceManager descomissiona o nó ordenadamente. Para resolver esse problema, adicione mais capacidade do Amazon Elastic Block Store (Amazon EBS) ao cluster do EMR.

Identifique a causa raiz

Para identificar a causa do erro, verifique as métricas MR unhealthy nodes e MR lost nodes do Amazon CloudWatch para o cluster do EMR.

Se a métrica MR unhealthy nodes apresentar um nó não íntegro, então o espaço em disco insuficiente causou o problema.

Se a métrica MR lost nodes apresentar um nó perdido, uma falha de hardware causou a perda do nó. Ou o Amazon EMR não consegue alcançar o nó devido ao alto uso da CPU ou da memória.

Adicione mais capacidade do Amazon EBS para novos clusters

Para adicionar mais capacidade do Amazon EBS ao iniciar um cluster do Amazon EMR, escolha um tipo de instância maior do Amazon Elastic Compute Cloud (Amazon EC2). Para mais informações, consulte Armazenamento padrão do Amazon EBS para instâncias. Também é possível modificar o tamanho do volume ou adicionar mais volumes ao criar o cluster.

Adicione mais nós principais ou de tarefas para clusters novos ou em execução

Escolha um número maior de nós centrais ou de tarefas ao iniciar um novo cluster. Ou adicione mais nós centrais ou de tarefas a um cluster em execução.

Adicione mais volumes do Amazon EBS para clusters em execução

Se volumes maiores do Amazon EBS não resolverem o problema, anexe mais volumes do Amazon EBS a um cluster em execução.

Conclua as etapas a seguir:

  1. Anexe mais volumes do Amazon EBS aos nós principais e de tarefas.

  2. Formate e monte os volumes anexados. Certifique-se de usar o número de disco correto. Por exemplo, /mnt1 ou /mnt2 em vez de /data.

  3. Use SSH para se conectar ao nó.

  4. Adicione o caminho /mnt1/yarn dentro da propriedade yarn.nodemanager.local-dirs de /etc/hadoop/conf/yarn-site.xml.
    Exemplo:

    <property>    <name>yarn.nodemanager.local-dirs</name>
        <value>/mnt/yarn,/mnt1/yarn</value>
    </property>
  5. Reinicie o serviço NodeManager:

    sudo stop hadoop-yarn-nodemanager
    sudo start hadoop-yarn-nodemanager
  6. Ative a proteção contra encerramento.

Se você ainda tiver problemas de espaço em disco, realize as seguintes ações:

  • Remova arquivos desnecessários.
  • Aumente o limite de utilização do disco de 90% para 99%. Para fazer isso, modifique a propriedade yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage em yarn-default.xml em todos os nós. Em seguida, reinicie o serviço hadoop-yarn-nodemanager.

Informações relacionadas

O cluster do Amazon EMR é encerrado com NO_SLAVE_LEFT e nós centrais FAILED_BY_MASTER

Why does the core node in my Amazon EMR cluster run out of disk space? (Por que o nó central de um cluster do Amazon EMR está ficando sem espaço em disco?)

AWS OFICIALAtualizada há 4 meses