Je souhaite comprendre mon alarme et évaluer son état de transition dans Amazon CloudWatch.
Brève description
Lorsque vous créez une alarme, les alarmes CloudWatch évaluent les conditions spécifiées en fonction des données de métriques fournies. Notez les attributs suivants que vous utilisez lorsque vous créez une alarme :
- Sélection de métrique : métrique que vous souhaitez surveiller.
- Configuration du seuil : valeur spécifique qui invoque l'alarme.
- Période d'évaluation : nombre de périodes d'alarme. Utilisez ce paramètre pour éviter les fausses alarmes.
- DataPointsToAlarm : nombre de points de données qui doivent être violés pour invoquer l'alarme. Utilisez-le pour régler la sensibilité de l'alarme.
- Période : intervalle d'agrégation des données de métriques (par exemple, toutes les 60 secondes).
- Statistique : type d'agrégation des données de métriques (par exemple, MIN ou AVG).
- Traiter les données manquantes (TMD) : méthode utilisée pour évaluer les alarmes lorsque des données de métriques sont manquantes.
Pour comprendre comment CloudWatch évalue les alarmes puis traite les données manquantes, consultez la section Évaluation d'une alarme et Configuration de la façon dont les alarmes CloudWatch traitent les données manquantes.
Résolution
Pour savoir comment CloudWatch analyse les points de données récupérés, consultez votre historique d’alarmes dans CloudWatch :
- Ouvrez la console CloudWatch, puis sélectionnez Alarmes dans le volet de navigation.
- Choisissez votre alarme, puis sélectionnez l'onglet Historique. Dans la colonne Date de l’onglet Historique, l'entrée d'horodatage en lien hypertexte indique quand l'alarme est passée à l'état ALARME.
Pour évaluer l'état de transition de votre Historique des alarmes, consultez les exemples JSON suivants pour l'alarme 1 et l'alarme 2. Pour les deux exemples d'alarme JSON, vérifiez les conditions suivantes :
- Métrique : HealthyHostCount
- Configuration du seuil : 1 (1 point de données ou moins en trois minutes)
- Période d'évaluation : 3 points de données
- Période : 1 minute
- Statistique : Minimum
- Traiter les données manquantes (TMD) : Par exemple, alarme 1, l'option Traiter les données manquantes est manquant. Par exemple, alarme 2, l'option Traiter les données manquantes est violation.
Exemple d'alarme JSON 1 :
"newState": {
"stateValue": "ALARM",
"stateReason": "Threshold Crossed: 1 out of the last 3 datapoints [1.0 (28/03/24 17:11:00)] was less than or equal to the threshold (1.0) (minimum 1 datapoint for OK -> ALARM transition).",
"stateReasonData": {
"version": "1.0",
"queryDate": "2024-03-28T17:13:09.156+0000",
"startDate": "2024-03-28T17:09:00.000+0000",
"statistic": "Minimum",
"period": 60,
"recentDatapoints": [
2,
2,
1
],
"threshold": 1,
"evaluatedDatapoints": [
{
"timestamp": "2024-03-28T17:11:00.000+0000",
"sampleCount": 2,
"value": 1
}
Pour le JSON précédent, trois points de données ont été récupérés avec les valeurs 2, 2 et 1. L'alarme est passée à l'état ALARM car l'un des 3 derniers points de données était inférieur ou égal au seuil de 1.
Remarque : Le paramètre evaluatedDatapoints affiche des détails sur les points de données hors limites. Pour le JSON précédent, 2 échantillons ont été reçus par CloudWatch. Lorsque ces échantillons sont agrégés selon la statistique Minimum, un point de données de 1 est renvoyé. Cette valeur dépasse le seuil inférieur ou égal à 1. Par conséquent, l'alarme passe à l'état ALARM.
Exemple d'alarme 2 JSON :
"newState": {
"stateValue": "ALARM",
"stateReason": "Threshold Crossed: 2 datapoints were received for 3 periods and 1 missing datapoint was treated as [Breaching].",
"stateReasonData": {
"version": "1.0",
"queryDate": "2024-03-28T20:09:52.566+0000",
"startDate": "2024-03-28T20:00:00.000+0000",
"statistic": "Minimum",
"period": 60,
"recentDatapoints": [
2,
2
],
"threshold": 1,
"evaluatedDatapoints": [
{
"timestamp": "2024-03-28T20:07:00.000+0000"
}
Pour le JSON précédent, la configuration de l'alarme évalue trois points de données. Deux points de données ont été récupérés avec les valeurs de 2 et 2. La troisième valeur de point de données est manquante et l'option TMD est prise en compte dans l'évaluation de l'alarme. TMD est défini sur violation et la valeur du point de données manquante est une valeur de violation. Cela provoque le passage de l'alarme à l'état ALARM.
Informations connexes
Utilisation des alarmes Amazon CloudWatch
Caractéristiques communes des alarmes CloudWatch
Pourquoi mon alarme CloudWatch s'est-elle déclenchée alors que la métrique surveillée ne contient aucun point de données de violation ?