Ir para o conteúdo

Como soluciono problemas de métricas ausentes do CloudWatch para meu endpoint do Sagemaker AI?

3 minuto de leitura
0

Quero solucionar a falta de métricas do Amazon CloudWatch no meu endpoint do Amazon SageMaker AI.

Resolução

Observação: Se você receber erros ao executar comandos da AWS Command Line Interface (AWS CLI), consulte Solução de erros da AWS CLI. Além disso, verifique se você está usando a versão mais recente da AWS CLI.

Verifique o namespace e as dimensões da métrica do CloudWatch

Certifique-se de você esteja verificando o namespace correto do CloudWatch:

  • O namespace AWS/SageMaker inclui métricas de carregamento de modelos de chamadas de API para InvokeEndpoint.
  • O namespace aws/sagemaker/Endpoints inclui métricas de instância de chamadas de API para InvokeEndpoint.
  • O namespace aws/sagemaker/InferenceComponents inclui métricas de chamadas de API para InvokeEndpoint de endpoints que hospedam componentes de inferência.

Para obter mais informações, consulte Métricas para monitorar o Amazon SageMaker AI com o Amazon CloudWatch.

Além disso, as dimensões das métricas de endpoint do SageMaker AI são EndpointName e VariantName.

Verifique suas permissões do IAM

Para publicar métricas no CloudWatch e gerenciar grupos de logs, o perfil do AWS Identity and Access Management (AWS IAM) associada ao seu endpoint deve ter as permissões necessárias do IAM.

Exemplos de permissões:

{
    "Version": "2012-10-17",
    "Statement": [{
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData",
            "cloudwatch:ListMetrics",
            "cloudwatch:GetMetricData",
            "logs:CreateLogGroup",
            "logs:CreateLogStream",
            "logs:PutLogEvents"
        ],
        "Resource": "*"
    }]
}

Verifique suas métricas do CloudWatch 20 minutos depois de criar ou atualizar seu endpoint

Depois de criar ou atualizar um endpoint, as métricas do CloudWatch podem levar até 20 minutos para serem disponibilizadas. Espere pelo menos 20 minutos antes de verificar suas métricas.

Verifique seus logs do SageMaker AI CloudWatch

Verifique seus logs do SageMaker AI para identificar problemas que possam fazer com que suas métricas não sejam publicadas no CloudWatch. Para acessar seus logs do SageMaker, use o console do CloudWatch. Ou execute o seguinte comando get-log-events:

aws logs get-log-events --log-group-name example-sagemaker-log-group-name

Observação: substitua example-sagemaker-log-group-name pelo nome do seu grupo de logs do SageMaker AI.

Verifique o período de retenção de suas métricas

O CloudWatch retém dados de métricas por 15 meses.

Para visualizar as métricas históricas do CloudWatch para seu endpoint do SageMaker AI, conclua as seguintes etapas:

  1. Abra o console do CloudWatch.
  2. No painel de navegação, escolha Métricas e, em seguida, escolha Todas as métricas.
  3. Escolha a métrica que você deseja visualizar.
  4. Para visualizar um grafo exibindo dados históricos de sua métrica em um período especificado, defina um intervalo de tempo.

Para obter mais informações, consulte Logging with CloudWatch (Registrando logs com o CloudWatch).

Verifique sua atividade de invocação de endpoint

O CloudWatch gera métricas quando seus endpoints têm um tráfego regular. Verifique se há tráfego ou atividade de invocação em seu endpoint do SageMaker AI.

Para verificar seu histórico de invocação do endpoint, conclua as seguintes etapas:

  1. Abra o console do SageMaker AI.
  2. No painel de navegação, escolha Inferência e, em seguida, escolha Endpoints.
  3. Selecione seu endpoint.
  4. Escolha a guia Monitorar e, em seguida, escolha Exibir histórico de invocação.

Ou execute o seguinte comando sagemaker-runtime para recuperar seu histórico de invocação de endpoint:

aws sagemaker-runtime get-invocation-history --endpoint-name example-endpoint-name [--max-results example-number] [--starting-time example-timestamp]

Observação: substitua example-endpoint-name pelo nome do seu endpoint, example-number pelo número máximo de resultados que você deseja visualizar e example-timestamp pela hora de início.