Saltar al contenido

¿Por qué se produjo una conmutación por error de mi clúster de Amazon Aurora compatible con PostgreSQL?

6 minutos de lectura
0

Quiero saber qué causa los eventos de conmutación por error en mi clúster de base de datos (DB) de la edición de Amazon Aurora compatible con PostgreSQL.

Descripción corta

Cuando se produce uno de los siguientes eventos, Aurora compatible con PostgreSQL realiza automáticamente una conmutación por error a una instancia de lector:

  • Hay problemas de infraestructura con la instancia de escritor. Esto incluye la pérdida de conectividad de red con el volumen del host físico o del clúster, o problemas con los recursos informáticos físicos.
  • No se puede acceder a la instancia de escritor. Este problema se produce cuando hay una carga de trabajo excesiva que provoca cuellos de botella en el rendimiento y contención de recursos.
  • El tipo de clase de instancia de base de datos del escritor cambia debido al escalamiento vertical de la instancia de base de datos.
  • El host subyacente del escritor experimenta parches de software, mantenimiento de hardware o una actualización del sistema operativo (SO) durante un periodo de mantenimiento específico. Para obtener más información, consulta Mantenimiento de un clúster de base de datos de Amazon Aurora.
  • La instancia usa la opción de conmutación por error a nivel de instancia.

Resolución

Cuando el escritor del clúster no responde a las comprobaciones de estado, el clúster inicia una conmutación por error a uno de los lectores en función de la prioridad. Para identificar la causa de la conmutación por error, consulta los siguientes registros y métricas para tu clúster de Aurora compatible con PostgreSQL.

Eventos de Amazon RDS

Para identificar la causa de una interrupción no planificada, consulta todos los eventos de Aurora del periodo de conmutación por error. Puedes ver los eventos de las últimas 2 semanas. Para almacenar eventos durante un periodo de tiempo más largo, envía los eventos de Aurora a Amazon EventBridge. Para obtener más información, consulta Creación de una regla que se desencadena en función de un evento de Amazon Aurora.

Métricas de CloudWatch

Para comprobar si la carga elevada de la base de datos provocó la conmutación por error, utiliza Amazon CloudWatch para ver las métricas del clúster de bases de datos de Aurora.

Comprueba si hay picos en las siguientes métricas que muestran la disponibilidad y el estado de tu clúster:

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • DiskQueueDepth
  • StorageNetworkThroughput

Supervisión mejorada

Utiliza la supervisión mejorada para ver las métricas del sistema operativo en tiempo real. Para activar la supervisión mejorada para tus instancias de Amazon Aurora, consulta Configuración y activación de la supervisión mejorada. Para obtener una lista de las métricas del sistema operativo que puedes ver, consulta Métricas del sistema operativo en Supervisión mejorada.

Información de rendimiento

Utiliza Información de rendimiento para ver la carga de la base de datos en tu clúster de Aurora compatible con PostgreSQL. Puedes filtrar la carga por esperas, instrucciones SQL, hosts o usuarios. Para obtener más información, consulta Análisis de métricas mediante el panel de Información de rendimiento.

Información de rendimiento muestra las consultas que más contribuyen a la carga de la base de datos, como una consulta que utiliza el 99 % de la carga de la base de datos.

Información de rendimiento te ayuda a identificar si los siguientes problemas pueden afectar al rendimiento del clúster de base de datos:

  • Operaciones de E/S, como IO:DataFileRead para lecturas de disco
  • Bloquear la contención, como Lock:transactionid y Lock:Relation
  • Problemas de administración del búfer, como BufferPin:BufferPin
  • Retrasos en la comunicación con el cliente, como Client:ClientRead y Client:ClientWrite

Importante: Información de rendimiento llegará al final de su ciclo de vida el 30 de junio de 2026. Puedes actualizar al modo avanzado de Database Insights antes del 30 de junio de 2026. Si no actualizas, los clústeres de bases de datos que utilizan Información de rendimiento adoptarán de forma predeterminada el modo estándar de Database Insights. Solo el modo avanzado de Database Insights admitirá los planes de ejecución y el análisis bajo demanda. Si los clústeres utilizan el modo estándar de forma predeterminada, es posible que no puedas usar estas características en la consola. Para activar el modo avanzado, consulta Activación del modo avanzado de Database Insights para Amazon RDS. Consulta también Activación del modo avanzado de Database Insights para Amazon Aurora.

Registros de base de datos de Aurora

En las bases de datos locales, los registros de la base de datos residen en el sistema de archivos. Como no puedes acceder al host de los registros de la base de datos del sistema de archivos, publica los registros en Registros de Amazon CloudWatch.

También puedes usar la consola de Amazon RDS para ver un archivo de registro de base de datos.

Conmutación por error rápida con Aurora PostgreSQL

Para cambiar rápidamente las operaciones a una instancia de réplica en buen estado después de una conmutación por error, configura la aplicación para una conmutación por error rápida.

Recuperación rápida después de la conmutación por error con administración de caché en clústeres para Aurora compatible con PostgreSQL

Para una recuperación rápida de la instancia de base de datos en el clúster de base de datos, utiliza la administración de la memoria caché del clúster para Aurora compatible con PostgreSQL.

RDS Proxy para mejorar el rendimiento de la conmutación por error

Utiliza el Amazon RDS Proxy para mantener un grupo abierto de conexiones a las instancias de base de datos. Durante las conmutaciones por error de la base de datos, RDS Proxy sigue aceptando conexiones en la misma dirección IP y dirige automáticamente las conexiones a la nueva instancia de base de datos principal. Cuando la instancia de base de datos original deja de estar disponible, RDS Proxy se conecta a la base de datos en espera, pero no interrumpe las conexiones de aplicaciones inactivas.

Información relacionada

Alta disponibilidad para Amazon Aurora

Supervisión de métricas en un clúster de Amazon Aurora

Categorías y mensajes de eventos de Amazon RDS para Aurora

OFICIAL DE AWSActualizada hace 6 meses