Quiero solucionar el problema de la falta de métricas de Amazon CloudWatch en mi punto de enlace de IA de Amazon SageMaker.
Solución
Nota: Si se muestran errores al ejecutar comandos de la Interfaz de la línea de comandos de AWS (AWS CLI), consulte Solución de problemas de AWS CLI. Además, asegúrese de utilizar la versión más reciente de la AWS CLI.
Comprobación de las dimensiones y el espacio de nombres de las métricas de CloudWatch
Asegúrese de comprobar el espacio de nombres de CloudWatch correcto:
- El espacio de nombres AWS/SageMaker incluye métricas de carga de modelos desde las llamadas a la API a InvokeEndpoint.
- El espacio de nombres aws/sagemaker/Endpoints incluye métricas de instancia de las llamadas a la API a InvokeEndpoint.
- El espacio de nombres aws/sagemaker/InferenceComponents incluye métricas de las llamadas a la API a InvokeEndpoint para los puntos de enlace que alojan componentes de inferencia.
Para obtener más información, consulte Métricas para supervisar la IA de Amazon SageMaker con Amazon CloudWatch.
Además, las dimensiones de las métricas de punto de enlace de IA de SageMaker son EndpointName y VariantName.
Comprobación de los permisos de IAM
Para publicar métricas en CloudWatch y administrar grupos de registro, el rol de AWS Identity and Access Management (IAM) asociado al punto de enlace debe tener los permisos de IAM necesarios.
Ejemplos de permisos:
{
"Version": "2012-10-17",
"Statement": [{
"Effect": "Allow",
"Action": [
"cloudwatch:PutMetricData",
"cloudwatch:ListMetrics",
"cloudwatch:GetMetricData",
"logs:CreateLogGroup",
"logs:CreateLogStream",
"logs:PutLogEvents"
],
"Resource": "*"
}]
}
Comprobación de las métricas de CloudWatch 20 minutos después de crear o actualizar el punto de enlace
Después de crear o actualizar un punto de enlace, las métricas de CloudWatch pueden tardar hasta 20 minutos en estar disponibles. Espere al menos 20 minutos antes de comprobar las métricas.
Comprobación de los registros de CloudWatch de IA de SageMaker
Consulte los registros de IA de SageMaker para identificar los problemas que podrían provocar que sus métricas no se publiquen en CloudWatch. Para acceder a los registros de SageMaker, utilice la consola de CloudWatch. O bien, ejecute el siguiente comando get-log-events:
aws logs get-log-events --log-group-name example-sagemaker-log-group-name
Nota: Sustituya example-sagemaker-log-group-name por el nombre del grupo de registro de IA de SageMaker.
Comprobación del periodo de retención de las métricas
CloudWatch retiene los datos de las métricas durante 15 meses.
Para ver las métricas históricas de CloudWatch de su punto de enlace de IA de SageMaker, siga estos pasos:
- Abra la consola de CloudWatch.
- En el panel de navegación, elija Métricas y, a continuación, Todas las métricas.
- Elija la métrica que quiere ver.
- Para ver un gráfico que muestre los datos históricos de su métrica en un periodo de tiempo específico, establezca un intervalo de tiempo.
Para obtener más información, consulte Inicio de sesión con CloudWatch.
Comprobación de la actividad de invocación del punto de enlace
CloudWatch genera métricas cuando los puntos de enlace tienen un tráfico constante. Compruebe si hay tráfico o actividad de invocación en el punto de enlace de IA de SageMaker.
Para comprobar el historial de invocaciones del punto de enlace, siga estos pasos:
- Abra la consola de IA de SageMaker.
- En el panel de navegación, elija Inferencia y, a continuación, elija Puntos de enlace.
- Seleccione su punto de enlace.
- Seleccione la pestaña Supervisar y, a continuación, elija Ver historial de invocaciones.
O bien, ejecute el siguiente comando sagemaker-runtime para recuperar el historial de invocaciones de puntos de enlace:
aws sagemaker-runtime get-invocation-history --endpoint-name example-endpoint-name [--max-results example-number] [--starting-time example-timestamp]
Nota: Sustituya example-endpoint-name por el nombre del punto de enlace, example-number por el número máximo de resultados que desea ver y example-timestamp por la hora de inicio.