Come posso accedere all'interfaccia utente di Spark in Amazon EMR?

3 minuti di lettura
0

Desidero visualizzare le interfacce Web di Apache Spark ospitate sui cluster Amazon EMR.

Risoluzione

Spark History Server è un'interfaccia utente Web in cui puoi visualizzare lo stato dei processi Spark in esecuzione e completati sul cluster EMR.

Di seguito sono riportati i modi più comuni per accedere all'interfaccia utente di Spark ospitata in una sottorete pubblica e privata:

  • Interfacce utente dell'applicazione persistenti
  • Interfacce utente dell'applicazione sul cluster

Interfacce utente dell'applicazione persistenti

Nel tuo cluster EMR, il daemon apppusher invia periodicamente i log degli eventi di Spark ai bucket di produzione di Amazon EMR. L'interfaccia utente persistente di Spark utilizza i log degli eventi per visualizzare le applicazioni Spark.

Questa caratteristica funziona quando la directory del log degli eventi dell'applicazione è in HDFS. Per impostazione predefinita, Amazon EMR archivia i log degli eventi nella directory /var/log/spark/apps di HDFS. Questa caratteristica non funziona se modifichi la directory predefinita in un file system diverso, come Amazon Simple Storage Service (Amazon S3). Per ulteriori informazioni, consulta Considerazioni e limitazioni.

Puoi accedere alla cronologia dell'applicazione e ai file di log pertinenti per i cluster attivi e terminati. I log sono disponibili per 30 giorni dopo la fine dell'applicazione. Per ulteriori informazioni, consulta Visualizzazione di interfacce utente delle applicazioni persistenti.

Interfacce utente dell'applicazione sul cluster

Le interfacce utente sul cluster sono ospitate sul nodo primario e richiedono una connessione SSH al server Web.

Per accedere all'interfaccia utente sul cluster, procedi come segue:

1.    Connettiti al nodo primario tramite SSH.

2.    Configura il tunneling SSH con l'inoltro della porta dinamico.

3.    Configura il tuo browser Internet per utilizzare un componente aggiuntivo come FoxyProxy per Firefox o SwitchyOmega per Chrome per gestire le impostazioni del proxy SOCKS.

Questo metodo filtra automaticamente gli URL in base a modelli di testo. Inoltre, limita le impostazioni del proxy ai domini che corrispondono alla forma del nome DNS del nodo primario.

ssh -i ~/mykeypair.pem -N -L 8157:ec2-###-##-##-###.compute-1.amazonaws.com:18080 hadoop@ec2-###-##-##-###.compute-1.amazonaws.com

Per ulteriori informazioni, consulta Opzione 1: Impostare un tunnel SSH sul nodo primario utilizzando l'inoltro porta locale.

Un'interfaccia utente sul cluster in una sottorete privata non è direttamente accessibile a meno che non utilizzi una rete locale tramite una connessione VPN o AWS Direct Connect. Inoltre, devi configurare l'instradamento in modo che la comunicazione si estenda alle reti AWS e locali.

In alternativa, puoi connetterti a una sottorete privata utilizzando un host bastione o un jump server ospitato in una sottorete pubblica. Quindi, crea un tunneling SSH con l'inoltro della porta dinamico.

Per ulteriori informazioni, consulta Securely Access Web Interfaces on Amazon EMR Launched in a Private Subnet (Accesso sicuro alle interfacce web in Amazon EMR avviate in una sottorete privata).


AWS UFFICIALE
AWS UFFICIALEAggiornata 2 anni fa