Eu iniciei uma instância de caderno do Amazon SageMaker IA para treinar modelos ou carregar grandes conjuntos de dados, e a instância de caderno parece estar congelada. Não consigo ver o uso dos recursos da minha instância do SageMaker IA.
Resolução
Quando as instâncias de navegador ou caderno do SageMaker parecerem não responder, execute um comando do Amazon Linux ou revise as métricas do Amazon CloudWatch para visualizar sua alocação de recursos.
Executar um comando Linux para visualizar a utilização de recursos do SageMaker IA
Conclua as etapas a seguir:
- Abra o console do SageMaker IA.
- No painel de navegação, escolha Instâncias do caderno.
- Ao lado da instância de caderno do SageMaker IA, abra o Jupyter ou JupyterLab.
- Abra o terminal.
- Execute os comandos a seguir para visualizar sua alocação de recursos.
Memória do sistema e carga do processador disponíveis:
top
Tarefas em execução e carga do processador:
ps -ax
Utilização e disponibilidade do espaço em disco:
df -h
Utilização e disponibilidade de RAM:
free -m
Usar as métricas do CloudWatch para visualizar a utilização de recursos do SageMaker IA
Observação: se você receber erros ao executar comandos da AWS Command Line Interface (AWS CLI), consulte Solução de problemas da AWS CLI. Além disso, verifique se você está usando a versão mais recente da AWS CLI.
Use um script de ciclo de vida. Por exemplo, o script publish-instance-metrics publica as métricas em nível de sistema da instância de caderno no CloudWatch. Para mais informações, consulte publish-instance-metrics/on-start.sh no site do GitHub.
Observação: para enviar métricas de instância para o CloudWatch, as instâncias devem assumir um perfil de execução do AWS Identity and Access Management (AWS IAM). Adicione a permissão cloudwatch:PutMetricData à política do IAM que está anexada ao perfil de execução.
Exemplo de política:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect":
"Allow",
"Action": [
"cloudwatch:PutMetricData"
],
"Resource": "*"
}
]
}
Ao ativar o CloudWatch Logs para a configuração do ciclo de vida, use um perfil do SageMaker com as seguintes permissões:
{
"Version": "2012-10-17",
"Statement": [
{
"Effect":
"Allow",
"Action": [
"logs:CreateLogDelivery",
"logs:CreateLogGroup",
"logs:CreateLogStream",
"logs:DeleteLogDelivery",
"logs:Describe*",
"logs:GetLogDelivery",
"logs:GetLogEvents",
"logs:ListLogDeliveries",
"logs:PutLogEvents",
"logs:PutResourcePolicy",
"logs:UpdateLogDelivery"
],
"Resource": "*"
}
]
}
Certifique-se de que a instância de caderno tenha conectividade com a Internet para obter o arquivo de configuração amazon-cloudwatch-agent.json para que o script não apresente falha. Se o acesso à Internet não estiver disponível no caderno, baixe manualmente o arquivo.json do GitHub na sua máquina local. Faça o upload do arquivo para um bucket do Amazon Simple Storage Service (Amazon S3) e modifique o código bash para copiar o arquivo de configuração do bucket do S3. No script on-start.sh LLC, execute o comando wget para remover a linha que usa o comando wget. Em seguida, adicione o comando s3 cp da AWS CLI para copiar o arquivo.json do bucket do S3 para um diretório. É uma prática recomendada colocar o arquivo do agente do CloudWatch em um diretório e, em seguida, executar o seguinte comando para iniciar o agente:
``/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a \
append-config -m ec2 -c file://$(pwd)/amazon-cloudwatch-agent.json
Certifique-se de criar endpoints de nuvem privada virtual (VPC) de interface para que você possa acessar outros serviços da AWS, como Amazon S3 e CloudWatch.
Configurar o caderno do SageMaker IA para visualizar as métricas do CloudWatch
Conclua as etapas a seguir:
-
Abra o console do SageMaker IA.
-
No painel de navegação, escolha Instâncias do caderno.
-
Ao lado do caderno do SageMaker, abra Jupyter ou Jupyterlab.
-
Abra o terminal.
-
Execute o seguinte comando para abrir amazon-cloudwatch-agent-config-wizard:
sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard
-
Siga as etapas do assistente e, quando solicitado, conclua as seguintes etapas:
Escolha um host on-premises.
Em StatsD Daemon, escolha não.
Em CollectD, escolha não.
-
Execute o comando a seguir para iniciar o agente do CloudWatch em seu servidor e inclua o arquivo config.json que o assistente criou:
sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:///opt/aws/amazon-cloudwatch-agent/bin/config.json -s
-
Abra o console do CloudWatch.
-
Escolha Métricas e, em seguida, CWAgent para visualizar suas métricas do SageMaker IA.
Para ver outros exemplos de scripts de configuração do ciclo de vida da AWS para cadernos do SageMaker IA, consulte amazon-sagemaker-notebook-instance-lifecycle-config-samples no site do GitHub.
Informações relacionadas
Métricas para monitorar o Amazon SageMaker IA com o Amazon CloudWatch
Métricas coletadas pelo agente do CloudWatch
Ferramentas para monitorar os recursos da AWS provisionados ao usar o Amazon SageMaker IA
Terminais no site do JupyterLab