尽管我可以在我的 Amazon CloudWatch 图表上看到告警指标超过了配置的阈值,但我的 CloudWatch 告警并未激活。我想确保我的 CloudWatch 告警已激活并执行告警操作。
简短描述
CloudWatch 告警会按滚动时间段持续监视时间汇总指标。如果评估期间收集的所有数据点都未超过配置的阈值,则 CloudWatch 告警不会激活。
当告警状态发生变化时,CloudWatch 告警会开始操作,并在指定的时间段数内保持不变。有关详细信息,请参阅使用 Amazon CloudWatch 告警。
**重要事项:**如果告警处于指定状态,则 CloudWatch 告警会持续激活 Amazon EC2 Auto Scaling 操作。如果状态没有变化且告警保持在指定状态,则活动将继续。
解决方法
要在创建告警时测量时间汇总指标,请验证 CloudWatch 使用的机制。
为确保告警正常运行,请降低指标数据阈值。
故障排除示例
在以下示例中,某个告警监视平均 CPU 使用率。该告警配置的阈值大于 45,周期为 5 分钟。评估时段和要报警的数据点均为 3。如果最近三个连续周期中的所有现有数据点都高于阈值,则该告警将变为告警状态。告警连续运行三个周期,每次 5 分钟。
时间汇总指标的评估间隔为 15 分钟:
- 05:25:00:数据:{Avg=61.123}
- 05:30:00:数据:{Avg=57.847}
- 05:35:00:数据:{Avg=60.503}
- 05:40:00:数据:{Avg=55.473}
- 05:45:00:数据:{Avg=41.685}
- 05:50:00:数据:{Avg=58.390}
- 05:55:00:数据:{Avg=57.846}
- 06:00:00:数据:{Avg=61.123}
有关更多信息,请参阅评估告警。
上述数据点会导致以下告警状态:
- 05:35 告警
- 05:40 告警
- 05:45 告警转正常
- 05:50 正常
- 05:55 正常
- 06:00 正常转告警
在 05:55 收集的数据点超过了 45% 的平均 CPU 使用率阈值。但是,告警仍处于正常状态,不会在 05:55 激活操作。由于在 05:45:00 收集的数据点没有超过阈值且包含在 05:55 的评估中,因此不会发生任何操作。5 分钟后,由于告警状态在 06:00 从正常变为告警,因此告警会开始操作。
对于以下时间汇总指标,数据点超过了 45% 的平均 CPU 使用率阈值,因此告警状态在 05:25:00 之后更改为告警。由于状态没有变化,因此告警操作未激活。
- 05:25:00:数据:{Avg=61.123}
- 05:30:00:数据:{Avg=57.847}
- 05:35:00:数据:{Avg=60.503}
- 05:40:00:数据:{Avg=55.473}
- 05:45:00:数据:{Avg=45.075}
- 05:50:00:数据:{Avg=58.390}
- 05:55:00:数据:{Avg=57.847}
- 06:00:00:数据:{Avg=61.123}
相关信息
Dynamic scaling for Amazon EC2 Auto Scaling
查看可用的指标