Wie überwache und optimiere ich die Kosten auf AWS Glue für Apache Spark?
Ich möchte meine Spark-Nutzung mit AWS Glue überwachen und die Kosten optimieren.
Lösung
Überwachung der Nutzung
Verwende den AWS Cost Explorer, um eine Zusammenfassung der Kosten für die Spark-Nutzung von deinen AWS Glue-Aufträgen zu erhalten.
Führe die folgenden Schritte aus:
- Öffne die Konsole für AWS-Fakturierung und -Kostenmanagement.
- Wähle im Navigationsbereich die Option Cost Explorer aus.
- Sieh dir im Kosten-Dashboard die monatlichen Kosten für AWS Glue an.
Nutzung nach Auftragsdetails anzeigen
Gehe wie folgt vor, um die AWS Glue-Auftragsdetails wie den Ausführungsstatus, die Ausführungsdauer oder die Nutzung der Datenverarbeitungseinheit (Data Processing Unit, DPU) zu überwachen:
- Öffne die AWS Glue-Konsole.
- Wähle unter ETL-Aufträge die Option Job run monitoring (Überwachung der Auftragsausführung) aus.
Kosten nach Art des Auftrags anzeigen
Gehe wie folgt vor, um die Kosten für eine bestimmte Art von AWS Glue-Auftrag zu ermitteln:
- Öffne die Konsole für AWS-Fakturierung und -Kostenmanagement.
- Wähle unter Kosten- und Nutzungsanalyse die Option Cost Explorer aus.
- Wähle unter Berichtsparameter im Abschnitt Filter für Service die Option Glue aus.
- Wähle unter Nutzungstyp den Filter für den Auftrag aus und gib deine AWS-Region an:
Verwende für einen Standardauftrag den Filter ETL-DPU-Hour. Wende beispielsweise für die Region USA West (Oregon) USW2-ETL-DPU-Hour an.
Verwende für einen flexiblen Auftrag den Filter ETL-Flex-DPU-Hour. Wende beispielsweise USW2-ETL-Flex-DPU-Hour an.
Verwende für eine interaktive Sitzung die GlueInteractiveSession-DPU-Hour. Wende beispielsweise USW2-GlueInteractiveSession-DPU-Hour an.
Die Nutzung und Kosten für einen bestimmten Auftrag abrufen
Gehe wie folgt vor, um die Kosten für einen bestimmten AWS Glue-Auftrag zu ermitteln:
- Öffne die AWS Glue-Konsole.
- Wähle unter ETL-Aufträge die Option Job run monitoring (Überwachung der Auftragsausführung) aus.
- Ermittle die DPU-Stunden, die du für den Auftrag verwendet hast.
- Wähle auf der Seite AWS Glue – Preise auf der Registerkarte ETL-Aufträge und interaktive Sitzungen deine Region aus.
- Notiere dir die Kosten jeder DPU-HOUR für den Auftragstyp.
- Um die Kosten zu berechnen, multipliziere die DPU-Stunden mit den Kosten für jede DPU-HOUR.
Richte einen CloudWatch-Alarm ein, um AWS Glue-Auftragsmetriken für die Speicher- oder CPU-Auslastung oder den Datenverkehr abzurufen.
Informationen zum AWS Glue-Auftrag findest du unter Wie erhalte ich Amazon SNS-Benachrichtigungen, wenn sich der Status meines AWS Glue-Auftrags ändert?
Kosten optimieren
Gehe wie folgt vor, um die Kosten für die Spark-Nutzung in AWS Glue-Aufträgen zu optimieren:
- Optimiere den AWS Glue-Auftrag, um die Dauer der Auftragsausführung und die erforderliche Anzahl von Workern zu reduzieren.
- Definiere den AWS Glue-Auftragsausführungstyp als Flex für unkritische AWS Glue-Aufträge.
- Aktiviere Auto Scaling für deinen AWS Glue-Auftrag.
- Erstelle ein AWS-Glue-Nutzungsprofil, um die Worker-Typen einzuschränken, die maximale Anzahl von Workern zu begrenzen und die Ausführungsdauer eines Auftrags zu begrenzen.
- Stelle ein angemessenes AWS Glue-Timeout für die Auftrags-API ein, damit der Auftrag nicht länger als die erwartete Laufzeit ausgeführt wird.
- Verwende einen geeigneten Workertyp und eine entsprechende Anzahl von Workern.
- Verwende ein Docker-Image, um in einer lokalen Umgebung zu testen und zu entwickeln. AWS Glue Docker verwendet lokale Rechenressourcen anstelle von AWS-Glue-Cloud-Services.
- Verwende die Funktion job bookmark (Auftrags-Lesezeichen) von AWS Glue, um Daten schrittweise zu verarbeiten.
- Verwende CloudWatch-Metriken, um die optimale DPU-Kapazität zu ermitteln und die Kapazität nach Bedarf anzupassen.
- Beende oder lösche interaktive Sitzungen, wenn du sie nicht verwendest. Verwende %stop_session von Jupyter magic oder wähle Sitzung stoppen auf der Seite Interaktive Sitzungen der AWS Glue-Konsole. Du kannst auch Notebook stoppen verwenden, um die Sitzung zu beenden.
**Hinweis:**Die Sitzung bleibt aktiv, auch wenn du die Browserregisterkarte schließt.
Ähnliche Informationen
Kosten auf AWS Glue für Apache Spark überwachen und optimieren

Relevanter Inhalt
AWS OFFICIALAktualisiert vor 10 Monaten