Saltar al contenido

¿Cómo soluciono los problemas de terminación de instancias de EC2 en Amazon ECS?

4 minutos de lectura
0

Las instancias de contenedor de Amazon Elastic Container Service (Amazon ECS) que se ejecutan en Amazon Elastic Cloud Compute (Amazon EC2) terminan inesperadamente.

Resolución

Para identificar la causa de la terminación de la instancia, revise los eventos de AWS CloudTrail para ver la llamada a la API TerminateInstances. En los detalles del evento, anote el valor de userAgent para el usuario o rol de AWS Identity and Access Management (IAM) que ha invocado la API. Tenga en cuenta también los valores de SourceIPaddress, eventTime, errorCode y errorMessage.

En función de la causa de los problemas de terminación de la instancia, tome las siguientes medidas de solución de problemas.

Revisión de las métricas para detectar problemas de verificación de estado

Compruebe las métricas CPUUtilization y StatusCheckFailed_Instance de Amazon CloudWatch para la instancia terminada. Las anomalías pueden mostrar problemas de rendimiento o fallos de hardware. Para obtener más información, consulte Comprobaciones de estado de las instancias de Amazon EC2. Si ha activado Información de contenedores de CloudWatch, compruebe también las métricas de Información de contenedores.

Compruebe los registros de la instancia para saber si la instancia tiene problemas de conexión de red, memoria insuficiente u otros problemas subyacentes. El uso excesivo de recursos puede provocar problemas de terminación de instancias. Cambie el tamaño de su tipo de instancia de contenedor en función de sus requisitos de carga de trabajo.

Comprobación del historial de Auto Scaling para ver si hay problemas

Compruebe el historial de actividad de su grupo de Amazon EC2 Auto Scaling para comprobar si un evento programado de EC2 Auto Scaling ha terminado la instancia. Si ha realizado una acción inesperada de Auto Scaling, compruebe la configuración de Auto Scaling, las políticas de escalamiento y los umbrales.

Para evitar la terminación inesperada de instancias, utilice la protección de terminación administrada para retener las instancias de contenedor de Amazon ECS que contienen tareas en ejecución.

También puede activar la protección de terminación de sus instancias para evitar la terminación accidental. Si ha activado la protección de terminación y sigue teniendo problemas, consulte ¿Cómo puedo resolver la configuración de protección de terminación administrada para el error del proveedor de capacidad en Amazon ECS?

Comprobación de si hay interrupciones en las instancias de spot

Si usa instancias de spot para su clúster, compruebe por qué se canceló o interrumpió la instancia de spot. Determine si Amazon EC2 ha terminado la instancia de spot. Si Amazon EC2 interrumpe su instancia de spot, recibirá un aviso 2 minutos antes de la interrupción.

Se recomienda usar instancias bajo demanda para aplicaciones con cargas de trabajo críticas que no se pueden interrumpir.

Configuración de los monitores para su instancia

Cree alarmas de CloudWatch para supervisar cuándo sus instancias se detienen, terminan, reinician o recuperan automáticamente a fin de identificar los problemas de forma proactiva. Además, cree una alarma de CloudWatch para métricas importantes, como CPUUtilization, DiskReadOps, DiskWriteOps, NetworkIn o NetworkOut.

Utilice Amazon Simple Notification Service (Amazon SNS) y Amazon EventBridge para recibir alertas sobre cambios de estado de instancias, como paradas, terminaciones y errores en las comprobaciones de estado. También puede crear una alarma que envíe un correo electrónico cuando una instancia cambie de estado.

Para recopilar métricas a nivel de clúster, instancia, servicio y tarea, configure Información de contenedores.

Configuración de alta disponibilidad

Use estrategias de asignación de tareas, como las tareas de distribución y empaquetado, para no concentrar demasiadas tareas en una sola instancia.

Además, distribuya las instancias de contenedor en varias zonas de disponibilidad para reducir el efecto de la terminación accidental de las instancias. Para obtener más información, consulte Prácticas recomendadas de disponibilidad de Amazon ECS.

OFICIAL DE AWSActualizada hace un año