Usando AWS re:Post, accetti AWS re:Post Termini di utilizzo

Come posso usare i flussi di lavoro AWS Glue per avviare automaticamente un processo al termine dell'esecuzione di un crawler?

3 minuti di lettura
0

Desidero utilizzare i flussi di lavoro AWS Glue per avviare automaticamente un processo al termine dell'esecuzione di un crawler.

Breve descrizione

Per avviare un processo al termine dell'esecuzione di un crawler, crea un flusso di lavoro AWS Glue e due trigger. Un trigger è per il crawler e l'altro per il processo. Questo metodo richiede l’avvio del crawler dalla pagina Flussi di lavoro della console AWS Glue.

Nota: puoi anche utilizzare una funzione AWS Lambda e una regola Amazon EventBridge per automatizzare l'esecuzione dei processi. Se scegli questa opzione, la funzione Lambda è sempre attiva. La funzione esegue il monitoraggio del crawler, indipendentemente da dove o quando la si avvia. Per ulteriori informazioni, consulta How can I use a Lambda function to automatically start an AWS Glue job when a crawler run completes?

Risoluzione

Prerequisiti: per completare i passaggi della risoluzione, devi avere un processo di estrazione, trasformazione e caricamento (ETL) di AWS Glue e un crawler di AWS Glue. Devi inoltre avere un ruolo AWS Identity and Access Management (IAM) per AWS Glue a cui è collegata la policy AWSGlueServiceRole.

Crea il flusso di lavoro

Completa i passaggi seguenti:

  1. Apri la console AWS Glue.
  2. Nel pannello di navigazione, scegli Flussi di lavoro, quindi scegli Aggiungi flusso di lavoro.
  3. Inserisci un nome per il flusso di lavoro, quindi scegli Aggiungi flusso di lavoro. Il nuovo flusso di lavoro viene visualizzato nell'elenco della pagina Flussi di lavoro.

Crea il trigger per il crawler

Completa i passaggi seguenti:

  1. Nella pagina Flussi di lavoro seleziona il nuovo flusso di lavoro, quindi scegli la scheda Grafico.
  2. Scegli Aggiungi trigger, quindi scegli la scheda Aggiungi nuovo. Per Tipo di trigger, scegli On demand.
  3. Scegli Aggiungi. Il trigger verrà visualizzato nel grafico.
  4. Nel grafico, scegli Aggiungi nodo.
  5. Nella scheda Crawler seleziona il tuo crawler, quindi scegli Aggiungi.

Crea il trigger per il processo AWS Glue

Completa i passaggi seguenti:

  1. Nel menu Operazione sopra il grafico, scegli Aggiungi trigger.
  2. Scegli la scheda Aggiungi nuovo, quindi seleziona le opzioni seguenti:
    In Tipo di trigger scegli Evento.
    In Logica trigger scegli Avvia dopo l'evento ALL (tutti) osservato.
  3. Scegli Aggiungi. Il trigger verrà visualizzato nel grafico.
  4. Nel grafico, a sinistra del trigger del processo che hai appena creato, scegli Aggiungi nodo.
  5. Nella scheda Crawler seleziona il tuo crawler, quindi scegli Aggiungi. Il trigger verrà visualizzato nel grafico.
  6. Nel grafico, a destra del trigger del processo che hai appena creato, scegli Aggiungi nodo.
  7. Nella scheda Lavori seleziona il processo che desideri avviare al termine dell'esecuzione del crawler, quindi scegli Aggiungi.

Verifica il flusso di lavoro

Completa i passaggi seguenti:

  1. Nel menu Operazioni, accanto al pulsante Aggiungi flusso di lavoro, scegli Esegui. La colonna Stato dell’ultima esecuzione diventa In esecuzione.
  2. Controlla la scheda Grafico per vedere lo stato del flusso di lavoro. Oppure, apri il crawler o il processo corrispondente per verificare che sia in esecuzione.

Informazioni correlate

Creating and building out a workflow manually in AWS Glue

AWS UFFICIALE
AWS UFFICIALEAggiornata un mese fa