AWS announces preview of AWS Interconnect - multicloud
AWS announces AWS Interconnect – multicloud (preview), providing simple, resilient, high-speed private connections to other cloud service providers. AWS Interconnect - multicloud is easy to configure and provides high-speed, resilient connectivity with dedicated bandwidth, enabling customers to interconnect AWS networking services such as AWS Transit Gateway, AWS Cloud WAN, and Amazon VPC to other cloud service providers with ease.
¿Cómo sigo las prácticas recomendadas para los eventos de conmutación por error y recuperación para los clústeres de diseño propio de ElastiCache para Valkey o ElastiCache para Redis OSS?
Quiero seguir las prácticas recomendadas para los eventos de conmutación por error en mi clúster de diseño propio de Amazon ElastiCache para Valkey o Amazon ElastiCache para Redis OSS.
Descripción corta
Los eventos de conmutación por error y recuperación son partes esenciales de Amazon ElastiCache que permiten que ElastiCache sea resiliente. Sin embargo, cuando se producen eventos de conmutación por error y recuperación, estos eventos pueden afectar al rendimiento y la disponibilidad de la aplicación.
Se recomienda reducir los problemas derivados de los eventos de conmutación por error y recuperación que afectan al clúster mediante la adopción de las siguientes medidas:
- Revisa los eventos.
- Comprende la causa de los eventos.
- Prepárate para los eventos.
- Configura las notificaciones de eventos.
Resolución
Nota: Si se muestran errores al ejecutar comandos de la Interfaz de la línea de comandos de AWS (AWS CLI), consulta Solución de problemas de AWS CLI. Además, asegúrate de utilizar la versión más reciente de la AWS CLI.
Revisar los eventos
ElastiCache registra varios eventos relacionados con tu clúster, grupos de seguridad y grupos de parámetros.
Los eventos incluyen, entre otros, la creación y eliminación de recursos, las operaciones de escalamiento, las conmutaciones por error, los reinicios de nodos y la creación de instantáneas. Para comprender y analizar mejor los eventos de tu clúster de ElastiCache, revisa tus eventos de ElastiCache.
Ejemplos de eventos de conmutación por error en los registros de eventos de ElastiCache:
December 5, 2024, 10:12:20 Finished recovery for cache nodes 0001 December 5, 2024, 10:10:48 Recovering cache nodes 0001 December 5, 2024, 10:05:45 Recovering cache nodes 0001 December 5, 2024, 10:04:24 Failover from master node <node name> to replica node <node name> completed
Ejemplos de eventos de recuperación en los registros de eventos de ElastiCache:
2022-10-05 19:20 Finished recovery for cache nodes 0001 2022-10-05 19:18 Recovering cache nodes 0001 2022-10-05 19:14 Recovering cache nodes 0001
Nota: Amazon ElastiCache para Memcached no admite la conmutación por error, pero es posible que veas mensajes similares en los registros de eventos de un evento de recuperación.
Comprender la causa del evento
Durante un evento de conmutación por error, ElastiCache reemplaza un nodo principal no disponible por un nodo de réplica. ElastiCache también reemplaza los nodos principales para las acciones solicitadas por el usuario o los eventos planificados. Para obtener más información, consulta las preguntas frecuentes sobre Amazon ElastiCache.
Ejemplos de eventos:
- Probar la funcionalidad de conmutación por error
- Realizar el mantenimiento planificado
- Resolver los problemas de la zona de disponibilidad
Si un nodo de réplica tiene problemas de disponibilidad, ElastiCache reemplaza la réplica por un nuevo nodo de réplica.
Nota: Este reemplazo no inicia un evento de conmutación por error.
Cuando ElastiCache intenta restaurar el clúster en estas situaciones, ElastiCache registra estos eventos de recuperación.
Nota: Para determinar si un nodo es principal o no, utiliza la métrica IsMaster de Amazon CloudWatch. Para obtener más información, consulta Métricas para Valkey y Redis OSS.
Eventos no planificados de recuperación y conmutación por error
En ElastiCache, se produce una conmutación por error no planificada cuando el nodo principal falla inesperadamente y solicita al servicio que promueva un nodo de réplica al rol principal. Del mismo modo, si un nodo de réplica necesita un reemplazo, ElastiCache aprovisiona automáticamente un nuevo nodo de réplica cuando se produce un error en la réplica. Ambos procesos minimizan el tiempo de inactividad y mantienen una alta disponibilidad. Las siguientes son las causas comunes de conmutación por error y reemplazo no planificados:
- Para los problemas subyacentes relacionados con el host de ElastiCache, como un error de hardware, problemas de red o un error en la zona de disponibilidad, ElastiCache realiza una recuperación. En el caso poco frecuente de que se produzca un error en la infraestructura de AWS, los procesos automatizados permiten una alta disponibilidad del clúster.
- Para cargas de trabajo pesadas, Amazon ElastiCache para Redis OSS y Amazon ElastiCache para Valkey son de un solo subproceso. Por este motivo, los comandos que se ejecutan durante mucho tiempo pueden bloquear otras operaciones. Una carga de trabajo excesiva en el clúster puede provocar la sobreutilización y el agotamiento de los recursos, y provocar la conmutación por error y la recuperación. Por ejemplo, los comandos complejos, los scripts de Lua ineficientes y las grandes operaciones basadas en claves pueden sobrecargar el clúster y degradar el rendimiento.
Nota: Cuando una réplica principal falla debido a una interrupción temporal de la zona de disponibilidad, ElastiCache inicia la nueva réplica después de que la zona de disponibilidad se recupere.
Eventos planificados de conmutación por error y recuperación
Los eventos planificados de recuperación y conmutación por error pueden producirse para operaciones de mantenimiento programadas o iniciadas por el usuario.
Para el mantenimiento programado, AWS actualiza periódicamente la flota de ElastiCache para reforzar la seguridad, la fiabilidad y el rendimiento operativo de los clústeres de ElastiCache. Los eventos de mantenimiento programados, como los reemplazos de nodos y las actualizaciones de servicios como parte del mantenimiento administrado continuo, pueden iniciar eventos de recuperación y conmutación por error. Para obtener más información, consulta Página de ayuda de actualizaciones de servicio y mantenimiento administrado de Amazon ElastiCache.
En el caso de las operaciones iniciadas por el usuario, el usuario inicia TestFailover mediante la API TestFailover, el comando test-failover de la AWS CLI o la consola de ElastiCache. Para promover una réplica de lectura en un clúster desactivado en modo de clúster principal, inicia una operación de promoción. Para obtener más información, consulta Cómo promover una réplica de lectura en grupos de replicación principales, para Valkey o Redis OSS (modo de clúster desactivado).
Nota: En algunas condiciones, como durante eventos operativos a gran escala, AWS podría bloquear esta API. Si AWS bloquea la API, verás el siguiente mensaje en tus registros de eventos: «Test Failover API called for node group 0001».
Prepararse para los eventos
Para los eventos de conmutación por error planificados, como las actualizaciones de mantenimiento o servicio, ElastiCache reemplaza los nodos cuando el clúster atiende las solicitudes de escritura entrantes. Para mitigar los problemas, sigue las prácticas recomendadas para los eventos de conmutación por error planificados. Para obtener más información, consulta Página de ayuda de actualizaciones de servicio y mantenimiento administrado de Amazon ElastiCache.
En el caso de los eventos de conmutación por error no planificados, la conmutación por error de ElastiCache se produce automáticamente al activar Multi-AZ en el clúster.
Nota: Si se produce una conmutación por error en una réplica al escribir en un nodo que usa el punto de enlace de la réplica, es posible que el nodo no esté disponible. Tras reemplazar la réplica, el nodo pasa a estar disponible para las solicitudes de lectura.
Para reducir los problemas durante los eventos planificados y no planificados, sigue las prácticas recomendadas de conectividad y configuración.
Configurar las notificaciones de eventos
Para responder rápidamente a los eventos y sus causas, configura ElastiCache para enviar notificaciones cuando haya una conmutación por error o una recuperación en un clúster. Para obtener más información, consulta Administración de las notificaciones de Amazon Simple Notification Service (Amazon SNS) de ElastiCache.
Cuando configuras ElastiCache para usar Amazon SNS para las notificaciones, recibes notificaciones similares a las de los siguientes ejemplos:
Ejemplos de eventos de recuperación:
Recovery reason : Recovery completed for node as ElastiCache monitoring detected a network reachability failure on the node, ElastiCache:CacheNodeReplaceComplete : <node>
Recovery reason : Recovery completed for node as ElastiCache monitoring detected software issues on the node, ElastiCache:CacheNodeReplaceComplete : <node>
Recovery reason : Recovery completed for node as ElastiCache monitoring detected unresponsive engine on the node, ElastiCache:CacheNodeReplaceComplete : <node>
Recovery reason : Recovery completed for node as ElastiCache monitoring detected busy and unresponsive engine on the node, ElastiCache:CacheNodeReplaceComplete : <node>
Ejemplos de eventos de conmutación por error:
Failover reason : Failover completed for node as ElastiCache monitoring detected a network reachability failure on the node, ElastiCache:FailoverComplete : <node>
Failover reason : Failover completed for node as ElastiCache monitoring detected software issues on the node, ElastiCache:FailoverComplete : <node>
Failover reason : Failover completed for node as ElastiCache monitoring detected unresponsive engine on the node, ElastiCache:FailoverComplete : <node>
Failover reason : Failover completed for node as ElastiCache monitoring detected busy and unresponsive engine on the node, ElastiCache:FailoverComplete : <node>
Nota: ElastiCache para Memcached no admite mensajes mejorados para eventos de recuperación.
Información relacionada
Monitoring best practices with Amazon ElastiCache for Redis using Amazon CloudWatch (Prácticas recomendadas de supervisión con Amazon ElastiCache para Redis mediante Amazon CloudWatch)
¿Cómo puedo solucionar los problemas de alta latencia en ElastiCache para Redis?
- Temas
- Database
- Etiquetas
- Amazon ElastiCache
- Idioma
- Español

Contenido relevante
- preguntada hace 7 meses
- preguntada hace 9 meses