Wie verwende ich AWS Glue-Workflows, um automatisch einen Auftrag zu starten, wenn die Ausführung eines Crawlers abgeschlossen ist?

Lesedauer: 3 Minute
0

Ich möchte AWS Glue-Workflows verwenden, um automatisch einen Auftrag zu starten, wenn die Ausführung eines Crawlers abgeschlossen ist.

Kurzbeschreibung

Um einen Auftrag zu starten, wenn die Ausführung eines Crawlers abgeschlossen ist, erstellen Sie einen AWS Glue-Workflow und zwei Auslöser. Ein Auslöser ist für den Crawler, und der andere Auslöser ist für den Auftrag. Bei dieser Methode müssen Sie den Crawler von der Workflow-Seite der AWS Glue-Konsole aus starten.

Hinweis: Sie können auch eine AWS Lambda-Funktion und eine Amazon EventBridge-Regel für die Automatisierung der Auftragsausführungen verwenden. Wenn Sie diese Option wählen, ist die Lambda-Funktion immer aktiviert. Die Funktion überwacht den Crawler unabhängig davon, wo oder wann Sie die Funktion starten. Weitere Informationen finden Sie unter Wie kann ich eine Lambda-Funktion verwenden, um automatisch einen AWS Glue-Job zu starten, wenn ein Crawler-Lauf abgeschlossen ist?

Lösung

Voraussetzungen: Um die Lösungsschritte abzuschließen, benötigen Sie einen AWS Glue-Auftrag für Extract, Transform, Load (ETL, Extrahieren, Transformieren und Laden) und einen AWS Glue-Crawler. Sie benötigen außerdem eine AWS Identity and Access Management (IAM, Identitäts- und Zugriffsmanagement)-Rolle für AWS Glue, an die die Richtlinie AWSGlueServiceRole angehängt ist.

Den Workflow erstellen

Führen Sie die folgenden Schritte aus:

  1. Öffnen Sie die AWS-Glue-Konsole.
  2. Wählen Sie im Navigationsbereich Workflows und dann Workflow hinzufügen aus.
  3. Geben Sie einen Namen für den Workflow ein und wählen Sie dann Workflow hinzufügen aus. Der neue Workflow wird in der Liste auf der Seite Workflows angezeigt.

Erstellen des Auslösers für den Crawler

Führen Sie die folgenden Schritte aus:

  1. Wählen Sie auf der Seite Workflows Ihren neuen Workflow aus, und wählen Sie dann die Registerkarte Grafik aus.
  2. Wählen Sie Trigger hinzufügen und wählen Sie dann die Registerkarte Add new (Neu hinzufügen) aus. Wählen Sie als Triggertyp die Option On demand (Auf Anfrage) aus.
  3. Wählen Sie Add (Hinzufügen) aus. Der Trigger erscheint in der Grafik.
  4. Wählen Sie in der Grafik Add node (Knoten hinzufügen) aus.
  5. Wählen Sie auf der Registerkarte Crawler Ihren Crawler aus und wählen Sie dann Add (Hinzufügen).

Den Auslöser für den AWS Glue-Auftrag erstellen

Führen Sie die folgenden Schritte aus:

  1. Wählen Sie im Menü Aktion über der Grafik die Option Auslöser hinzufügen aus.
  2. Wählen Sie die Registerkarte Neu hinzufügen, und wählen Sie dann die folgenden Optionen aus:
    Wählen Sie als Auslösertyp die Option Ereignis aus.
    Wählen Sie als Auslöserlogik die Option Nach ALLEN beobachteten Events starten aus.
  3. Wählen Sie Add (Hinzufügen) aus. Der Auslöser erscheint in der Grafik.
  4. Wählen Sie in der Grafik links neben dem Auftrags-Auslöser, den Sie gerade erstellt haben, die Option Knoten hinzufügen aus.
  5. Wählen Sie auf der Registerkarte Crawler Ihren Crawler aus und wählen Sie dann Hinzufügen. Der Trigger erscheint in der Grafik.
  6. Wählen Sie im Diagramm rechts neben dem Auftrags-Trigger, den Sie gerade erstellt haben, die Option Add node (Knoten hinzufügen) aus.
  7. Wählen Sie auf der Registerkarte Auftrag den Auftrag aus, den Sie starten möchten, wenn der Crawler-Lauf abgeschlossen ist, und wählen Sie dann Hinzufügen.

Den Workflow testen

Führen Sie die folgenden Schritte aus:

  1. Wählen Sie im Menü Aktionen neben der Schaltfläche Workflow hinzufügen die Option Ausführen aus. Die Spalte Status Letzter Lauf wechselt zu Wird ausgeführt.
  2. Prüfen Sie auf der Registerkarte Diagramm den Status des Workflows. Oder öffnen Sie Ihren entsprechenden Crawler oder Auftrag, um zu überprüfen, ob er läuft.

Weitere Informationen

Manuelles Erstellen und Entwickeln eines Workflows in AWS Glue

AWS OFFICIAL
AWS OFFICIALAktualisiert vor 3 Monaten