CloudWatch でアラームを把握し、アラームの遷移状態を評価する方法を教えてください。

所要時間2分
0

Amazon CloudWatch で自分のアラームを把握し、アラームの遷移状態を評価したいです。

簡単な説明

アラームを作成すると、CloudWatch アラームは受け取ったメトリクスデータに基づいて指定された条件を評価します。アラームの作成に使用する、次の属性に留意してください。

  • メトリクス選択 - 監視するメトリクス。
  • しきい値設定 - アラームを起動させる、特定の値。
  • 評価期間 - アラーム期間の数。このパラメータを使用すると、誤報が発生するのを防ぐことができます。
  • DatapointsToAlarm - アラームを起動するのに必要な、違反データポイントの数。これを使用してアラーム感度を設定します。
  • 期間 - メトリクスデータを集計する間隔 (たとえば、60 秒ごと)。
  • 統計タイプ - メトリクスデータ集計の種類 (MINAVG など)。
  • **欠損データの処理 (TMD) ** - メトリクスデータが欠落している場合にアラームを評価する方法。

CloudWatch がアラームを評価して欠損データを処理する方法については、「アラームの評価」と「CloudWatch アラームによる欠損データの処理方法の設定」を参照してください。

解決策

取得したデータポイントを CloudWatch がどのように分析するかを確認するには、CloudWatch の [アラーム履歴] を確認します。

  1. CloudWatch コンソールを開き、ナビゲーションペインで [アラーム] を選択します。
  2. アラームを選択し、[履歴] タブを選択します。[履歴] タブの [日付] 列では、ハイパーリンクが付いたタイムスタンプエントリが、アラームが ALARM 状態になった日時を示しています。

[アラーム履歴] でアラーム遷移状態を評価する方法については、次の JSON 例でアラーム 1 とアラーム 2 を参照してください。どちらのアラーム JSON の例でも、次の条件を確認してください。

  • メトリック - HealthyHostCount
  • しきい値設定 - 1 (3 分間に 1 データポイント以下)
  • 評価期間 - 3 データポイント
  • 期間 - 1 分
  • 統計タイプ - 最小
  • 欠損データの処理 (TMD) - たとえば、アラーム 1 では、欠損データの処理オプションは欠落です。たとえば、アラーム 2 では、欠損データの処理オプションは違反です。

アラーム 1 の JSON の例:

"newState": {
      "stateValue": "ALARM",
      "stateReason": "Threshold Crossed: 1 out of the last 3 datapoints [1.0 (28/03/24 17:11:00)] was less than or equal to the threshold (1.0) (minimum 1 datapoint for OK -> ALARM transition).",
      "stateReasonData": {
        "version": "1.0",
        "queryDate": "2024-03-28T17:13:09.156+0000",
        "startDate": "2024-03-28T17:09:00.000+0000",
        "statistic": "Minimum",
        "period": 60,
        "recentDatapoints": [
          2,
          2,
          1
        ],
        "threshold": 1,
        "evaluatedDatapoints": [
          {
            "timestamp": "2024-03-28T17:11:00.000+0000",
            "sampleCount": 2,
            "value": 1
          }

上記の JSON では、221 の値を持つ 3 つのデータポイントが取得されました。直近の 3 つのデータポイントのうち、1 つがしきい値 1 以下だったため、アラームは ALARM 状態に移行しました。

注: evaluatedDatapoints パラメータは、違反データポイントの詳細を示します。上記の JSON では、CloudWatch が 2 つのサンプルを取得しました。これらのサンプルを最小統計量で集計すると、1 のデータポイントが返されます。この値は 1 以下というしきい値に達しています。その結果、アラームは ALARM 状態に移行します。

アラーム 2 の JSON の例:

"newState": {
      "stateValue": "ALARM",
      "stateReason": "Threshold Crossed: 2 datapoints were received for 3 periods and 1 missing datapoint was treated as [Breaching].",
      "stateReasonData": {
        "version": "1.0",
        "queryDate": "2024-03-28T20:09:52.566+0000",
        "startDate": "2024-03-28T20:00:00.000+0000",
        "statistic": "Minimum",
        "period": 60,
        "recentDatapoints": [
          2,
          2
        ],
        "threshold": 1,
        "evaluatedDatapoints": [
          {
            "timestamp": "2024-03-28T20:07:00.000+0000"
          }

上記の JSON では、アラーム設定は 3 つのデータポイントを評価します。22 の値を持つ、2 つのデータポイントが取得されました。3 番目のデータポイント値が欠落しているため、アラーム評価では TMD オプションが考慮されます。TMDは違反に設定されており、欠落しているデータポイント値は違反値です。これにより、アラームは ALARM 状態に移行します。

関連情報

Amazon CloudWatch アラームを使用する

CloudWatch アラームの一般的な機能

監視対象のメトリクスに違反データポイントがなくても、CloudWatch アラームが起動した理由を知りたいです

AWS公式
AWS公式更新しました 8ヶ月前