AWS Glue での Spark の使用状況を監視し、コストを最適化したいです。
解決策
使用状況を監視する
AWS Glue ジョブでの Spark の使用コストの概要を確認するには、AWS Cost Explorer を使用します。
次の手順を実行します。
- AWS Billing and Cost Management コンソールを開きます。
- ナビゲーションペインで [Cost Explorer] を選択します。
- [コスト] ダッシュボードで AWS Glue の月次コストを表示します。
ジョブ詳細別に使用状況を確認する
実行ステータス、実行時間、データ処理ユニット (DPU) の使用状況などの AWS Glue ジョブの詳細を監視するには、次の手順を実行します。
- AWS Glue コンソールを開きます。
- [ETL ジョブ] で [ジョブ実行の監視] を選択します。
ジョブのタイプ別にコストを確認する
特定のタイプの AWS Glue ジョブに関するコストを把握するには、次の手順を実行します。
- AWS Billing and Cost Management コンソールを開きます。
- [コストと使用状況の分析] で [Cost Explorer] を選択します。
- [レポートパラメータ] で、[フィルター] セクションの [サービス] に [Glue] を選択します。
- [使用タイプ] でジョブのフィルターを選択し、AWS リージョンを入力します。
標準ジョブの場合は、ETL-DPU-Hour フィルターを使用します。たとえば、米国西部 (オレゴン) リージョンの場合は、USW2-ETL-DPU-Hour を適用します。
フレックスジョブには、ETL-Flex-DPU-Hour フィルターを使用します。たとえば、USW2-ETL-Flex-DPU-Hour を適用します。
インタラクティブセッションには、GlueInteractiveSession-DPU-Hour を使用します。たとえば、USW2-GlueInteractiveSession-DPU-Hour を適用します。
特定のジョブに関する使用状況とコストを把握する
特定の AWS Glue ジョブにかかるコストを把握するには、次の手順を実行します。
- AWS Glue コンソールを開きます。
- [ETL ジョブ] で [ジョブ実行の監視] を選択します。
- ジョブに使用した DPU 時間を特定します。
- AWS Glue の料金ページの [ETL ジョブとインタラクティブセッション] タブで、お使いのリージョンを選択します。
- 該当するジョブタイプに関する、各 DPU-HOUR を書き留めます。
- コストを計算するには、DPU 時間に各 DPU-HOUR に対するコストを乗算します。
メモリまたはCPU 使用率、あるいはデータトラフィックに関する AWS Glue ジョブメトリクスを取得するには、CloudWatch アラームを設定します。
AWS Glue ジョブに関する通知を受信するには、「AWS Glue ジョブの状態が変わったときに Amazon SNS 通知を受信する方法を教えてください」を参照してください。
コストを最適化する
AWS Glue ジョブにおける Spark の使用コストを最適化するには、次の手順を実行します。
関連情報
Apache Spark での AWS Glue のコストを監視、最適化する