Help us improve the AWS re:Post Knowledge Center by sharing your feedback in a brief survey. Your input can influence how we create and update our content to better support your AWS journey.
Come posso monitorare e ottimizzare i costi in AWS Glue per Apache Spark?
Desidero monitorare il mio utilizzo di Spark in AWS Glue e ottimizzare i costi.
Risoluzione
Monitora l'utilizzo
Per ottenere un riepilogo dei costi legati all'utilizzo di Spark nei processi AWS Glue, utilizza AWS Cost Explorer.
Completa i seguenti passaggi:
- Apri la console Gestione costi e fatturazione AWS.
- Nel pannello di navigazione, scegli Cost Explorer.
- Nella dashboard Costo, visualizza i costi mensili di AWS Glue.
Visualizza l'utilizzo in base ai dettagli del processo
Per monitorare i dettagli del processo AWS Glue, come lo stato di esecuzione, la durata dell'esecuzione o l'utilizzo dell'unità di elaborazione dati (DPU), completa i seguenti passaggi:
- Apri la console AWS Glue.
- In Processi ETL, scegli Job run monitoring (Monitoraggio dell'esecuzione dei processi).
Visualizza i costi per tipo di processo
Per calcolare i costi per un tipo specifico di processo AWS Glue, completa i seguenti passaggi:
- Apri la console Gestione costi e fatturazione AWS.
- In Analisi dei costi e dell'utilizzo, scegli Cost Explorer.
- In Parametri report, nella sezione Filtri, per Servizio, scegli Glue.
- In Tipo di utilizzo, seleziona il filtro per il processo e includi la Regione AWS:
Per un processo standard, utilizza il filtro ETL-DPU-Hour. Ad esempio, per la Regione Stati Uniti occidentali (Oregon), applica USW2-ETL-DPU-Hour.
Per un processo flessibile, utilizza il filtro ETL-Flex-DPU-Hour. Ad esempio, applica USW2-ETL-Flex-DPU-Hour.
Per una sessione interattiva, utilizza GlueInteractiveSession-DPU-Hour. Ad esempio, applica USW2-GlueInteractiveSession-DPU-Hour.
Calcola l'utilizzo e il costo di un processo specifico
Per calcolare il costo di un processo AWS Glue specifico, completa i seguenti passaggi:
- Apri la console AWS Glue.
- In Processi ETL, scegli Job run monitoring (Monitoraggio dell'esecuzione dei processi).
- Individua il valore Ore DPU utilizzate per il processo.
- Nella pagina Prezzi di AWS Glue, nella scheda Processi ETL e sessioni interattive, seleziona la tua Regione.
- Annota il costo di ogni ORA DPU per il tipo di processo specifico.
- Per calcolare il costo, moltiplica il numero di ore DPU per il costo di ogni ORA DPU.
Per ottenere le metriche dei processi AWS Glue per l'utilizzo della memoria o della CPU o per il traffico di dati, configura un allarme CloudWatch.
Per ricevere notifiche sul processo AWS Glue, consulta Come posso ricevere avvisi Amazon SNS quando il mio processo AWS Glue cambia stato?
Ottimizza il costo
Per ottimizzare i costi di utilizzo di Spark nei processi AWS Glue, intraprendi le seguenti azioni:
- Ottimizza il processo AWS Glue per ridurre la durata dell'esecuzione e il numero richiesto di worker.
- Definisci il tipo di esecuzione dei processo AWS Glue come Flex per i processi AWS Glue non critici.
- Attiva il dimensionamento automatico per il processo AWS Glue.
- Crea un profilo di utilizzo AWS Glue per limitare i tipi di worker, limitare il numero massimo di worker e limitare la durata di esecuzione di un processo.
- Imposta un timeout di AWS Glue appropriato per l'API Jobs in modo che il processo non venga eseguito più del tempo di esecuzione previsto.
- Utilizza un tipo e un numero di worker appropriati.
- Per testare e sviluppare in un ambiente locale, utilizza un'immagine Docker. AWS Glue Docker utilizza risorse di elaborazione locali anziché servizi cloud AWS Glue.
- Utilizza la funzionalità segnalibro del processo di AWS Glue per elaborare i dati in modo incrementale.
- Utilizza le metriche di CloudWatch per identificare la capacità DPU ottimale e regolarla in base alle necessità.
- Interrompi o elimina le sessioni interattive quando non le utilizzi. Utilizza il magic di Jupyter %stop_session o scegli Interrompi sessione nella pagina Sessione interattiva della console AWS Glue. Per terminare la sessione, puoi anche inoltre utilizzare Stop Notebook (Arresta notebook).
Nota: la sessione rimane attiva anche se chiudi la scheda del browser.
Informazioni correlate
Monitor and optimize cost on AWS Glue for Apache Spark (Monitoraggio e ottimizzazione dei costi in AWS Glue per Apache Spark)
