Mi alarma de Amazon CloudWatch ha cambiado al estado ALARM. Cuando compruebo la métrica monitoreada, el gráfico de CloudWatch no muestra ningún punto de datos infractor. Sin embargo, el historial de alarmas contiene una entrada con un punto de datos infractor. Quiero saber qué ha activado mi alarma de CloudWatch.
Breve descripción
Las alarmas de CloudWatch evalúan las métricas en función de los puntos de datos disponibles en ese momento. El historial de la alarma muestra un registro de los puntos de datos que la alarma evaluó en ese momento. Sin embargo, después de la evaluación de la alarma, CloudWatch puede publicar nuevos muestras. Estas nuevas muestras pueden afectar al valor que se calcula cuando CloudWatch agrega los datos de las métricas.
Solución
Cómo encontrar los puntos de datos infractores
Si su gráfico de CloudWatch no muestra ningún punto de datos infractor, significa que esos puntos de datos se produjeron fuera del tiempo de evaluación de la alarma.
Por ejemplo, X muestras pasan a estar disponibles cuando se evalúa una alarma. El número X de muestras da lugar a un valor agregado A. A continuación, se publican nuevas muestras. Por lo tanto, se obtiene un número de muestras Y con la misma marca de tiempo. El número de muestras Y da lugar a un valor agregado B.
En el siguiente ejemplo, se configura una alarma con los parámetros anteriores:
- Espacio de nombres: Web\ _App
- Métrica: ResponseTime
- Dimensión: host,h_04254448d4e964956
- Estadística: Promedio
- Umbral: 0,005
- Operador de comparación: GreaterThanThreshold
- Periodo: 60 segundos (1 minuto)
- Periodo de evaluación: 1
Cuando la alarma evalúa el periodo comprendido entre las 12:00:00 y las 12:01:00 UTC, la métrica obtiene los siguientes valores:
Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421
Como el promedio de estos valores es de 0,006283333, el promedio supera el umbral de 0,005 segundos y la alarma cambia al estado ALARM. El historial de la alarma muestra los valores agregados que superan el umbral.
Si un host experimenta un problema de rendimiento temporal, esto afectará a la aplicación cliente responsable de publicar las métricas. En consecuencia, es posible que el host no publique puntos de datos a intervalos regulares. En este caso, las muestras de las 12:00 se publican después de la evaluación de la alarma.
El siguiente ejemplo representa todas las muestras en la marca de tiempo 12:00:
Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421
Sample-4: 12:00:00 UTC, numeric value: 0.00002
Sample-5: 12:00:00 UTC, numeric value: 0.00007
Cuando reciba una alerta de la alarma, genere un gráfico de CloudWatch para revisar el comportamiento de las métricas. CloudWatch recupera las cinco muestras entre las 12:00:00 y las 12:01:00 UTC, y las agrega en un promedio de 0,003788. Por lo tanto, el valor ha cambiado respecto al valor calculado anteriormente y está por debajo del umbral. Si se publican muestras adicionales después de la evaluación de la alarma, los puntos de datos infractores no estarán visibles para ese intervalo de tiempo.
Aumento del intervalo de evaluación de alarmas
Al configurar Puntos de datos para la alarma, es posible que el intervalo de evaluación sea más largo. Cuando una alarma genera alertas falsas debido al retraso en las métricas, el intervalo de evaluación aumenta y los puntos de datos con retraso se incluyen en la evaluación de la alarma. La inclusión de puntos de datos con retraso reduce la cantidad de alertas falsas.
Para aumentar el intervalo de evaluación, utilice una de las siguientes opciones.
Aumente el periodo. En el ejemplo siguiente, el periodo se incrementa a cinco minutos:
Espacio de nombres: Web_App
Métrica: ResponseTime
Dimensión: host,h_04254448d4e964956
Estadística: Average
Umbral: 0,005
Operador de comparación: GreaterThanThreshold
Periodo: 300 segundos (5 minutos)
Periodo de evaluación: 1
Como alternativa, configure M de los N puntos de datos para la alarma. En el siguiente ejemplo, M de los N puntos de datos se configuran como dos de cada tres puntos de datos:
Espacio de nombres: Web_App
Métrica: ResponseTime
Dimensión: host,h_04254448d4e964956
Estadística: Average
Umbral: 0,005
Operador de comparación: GreaterThanThreshold
Periodo: 60 segundos (1 minuto)
Periodo de evaluación (N): 3
Puntos de datos para la alarma (M): 2
Si configura Periodos de evaluación y Puntos de datos para la alarma con valores diferentes, se establece una alarma de M entre N. La opción Puntos de datos para la alarma se define como M y Periodo de evaluación como N. Por ejemplo, si configura cuatro de los cinco puntos de datos con un periodo de un minuto, el intervalo de evaluación será de cinco minutos. Si configura tres de los tres puntos de datos con un periodo de 10 minutos, el intervalo de evaluación será de 30 minutos.
Si configura Puntos de datos para la alarma con valores diferentes, las alarmas de CloudWatch evaluarán más puntos de datos. Las alarmas de CloudWatch también cambian el estado de la alarma cuando un número mínimo de puntos de datos infringe un conjunto de puntos de datos. Este parámetro puede ajustar la alarma para que se active en un único punto de datos o para que requiera varios puntos de datos para pasar al estado ALARM.
Para obtener más información, consulte Cree una alarma de CloudWatch basada en un umbral estático y Configuración de la forma en la que las alarmas de CloudWatch tratan los datos que faltan.
Información relacionada
¿Por qué no he recibido una notificación de SNS cuando se ha activado mi alarma de CloudWatch?
¿Cómo soluciono los problemas de mi alarma de CloudWatch en el estado INSUFFICIENT_DATA?
¿Por qué mi alarma de CloudWatch me envió una notificación después de que se hubiese superado el umbral de un único punto de datos?