Ir para o conteúdo

Como soluciono problemas de conectividade da instância de caderno do SageMaker AI?

4 minuto de leitura
0

Quero solucionar problemas de conectividade da instância de caderno do Amazon SageMaker AI.

Breve descrição

Um caderno do SageMaker AI Jupyter pode não responder ou mostrar erros pelos seguintes motivos:

  • O SageMaker AI não consegue estabelecer uma conexão entre o Jupyter e o navegador.
  • O kernel do caderno atingiu seu tempo limite definido.
  • Sua carga de utilização de recursos é alta.

Resolução

Observação: se você receber mensagens de erro ao executar comandos da AWS Command Line Interface (AWS CLI), consulte Solução de problemas da AWS CLI. Além disso, verifique se você está usando a versão mais recente da AWS CLI.

Solucione problemas de conexão entre seu caderno do Jupyter e o navegador

Ao abrir um caderno do Jupyter, é possível receber a seguinte mensagem de erro:

"A connection to the notebook server could not be established. The notebook will continue trying to reconnect. Check your network connection or notebook server configuration."

Para solucionar esse erro, realize as seguintes ações:

  • Reinicie sua instância de caderno. Ao ser reinicializada, a instância do caderno é movida para um novo host. Uma reinicialização também pode resolver os erros HTTP 503 e 504 no navegador.
    Observação: é uma prática recomendada reiniciar regularmente as instâncias de caderno para manter o software da instância de caderno atualizado.
  • Reinicie o navegador, limpe o cache do navegador ou tente usar um navegador diferente.
  • Use uma conexão de rede diferente.
  • Verifique se o firewall, proxy ou software antivírus está bloqueando a conexão.
  • Verifique os logs de todos os WebSockets em seu navegador. Normalmente, é possível encontrar essa configuração no modo de desenvolvedor do navegador.
  • Desative temporariamente todas as extensões do navegador e tente novamente.

Gere um novo token de sessão do caderno

O token de sessão do caderno do Jupyter tem validade máxima de 12 horas. Depois que o token expirar, a sessão expirará e você deverá atualizá-la para redefinir o tempo limite do token. No entanto, o kernel do Jupyter continua em execução mesmo se o navegador se desconectar.

Para atenuar os efeitos do token de 12 horas, conclua as seguintes etapas:

  1. Grave os resultados do seu programa em um arquivo em vez de em stdout.
  2. Converta seu programa em um script Python e, em seguida, execute-o.
  3. Para gerar um novo URL com AuthToken, faça uma chamada de API para CreatePresignedNotebookInstanceURL para gerar um novo URL com AuthToken. Em seguida, cole o novo URL no seu navegador antes que a sessão expire. Isso gera um novo token de sessão de 12 horas.
  4. Vá diretamente para AuthorizedUrl.
  5. (Opcional) Para abrir o JuypterLab, modifique o URL para adicionar "view=Lab&" ao formulário: https://name>.notebook.sagemaker.aws?view=Lab&AuthToken=

Verifique sua utilização de recursos

Para verificar a utilização de recursos em sua instância de caderno do SageMaker AI, execute os seguintes comandos no terminal do caderno.

Para verificar a utilização da memória:

free -h

Para verificar a utilização da CPU:

top

Para verificar a utilização do disco:

df -h

É uma prática recomendada usar um script de configuração do ciclo de vida para publicar as métricas da instância no Amazon CloudWatch para obter visibilidade. Para obter mais informações, consulte publish-instance-metrics no site do GitHub.

Se você observar uma alta utilização de CPU, memória ou disco, reinicie a instância de caderno e tente novamente. Verifique se seu tipo de instância de caderno do SageMaker AI pode oferecer suporte à configuração de seus trabalhos. Altere seu tipo de instância, se necessário.

Informações relacionadas

Como soluciono problemas de uma instância do caderno SageMaker IA que não consegue abrir o Jupyter?

Como soluciono erros de capacidade insuficiente ao iniciar meus recursos do SageMaker AI?

Métricas coletadas pelo atendente do CloudWatch em instâncias do Linux e macOS

AWS OFICIALAtualizada há 6 meses