Direkt zum Inhalt

Wie greife ich in Amazon EMR auf die Spark-Benutzeroberfläche zu?

Lesedauer: 2 Minute
0

Ich möchte die Apache-Spark-Web-Benutzeroberflächen anzeigen, die von meinen Amazon-EMR-Clustern gehostet werden.

Lösung

Der Spark-Verlaufsserver ist eine Web-Benutzeroberfläche, auf der du den Status aktuell ausgeführter und abgeschlossener Spark-Aufträge im Amazon EMR-Cluster einsehen kannst.

Um auf die Spark-Benutzeroberfläche zuzugreifen, die in einem öffentlichen oder privaten Subnetz gehostet wird, verwende entweder persistente Anwendungsbenutzeroberflächen oder Benutzeroberflächen für Anwendungen auf Clustern.

Persistente Anwendungsbenutzeroberflächen

Im Amazon EMR-Cluster sendet der apppusher-Daemon regelmäßig Spark-Ereignisprotokolle an Amazon-EMR-Produktions-Buckets. Die persistente Spark-Benutzeroberfläche verwendet die Ereignisprotokolle, um Spark-Anwendungen anzuzeigen.

Diese Funktion läuft, wenn sich das Ereignisprotokollverzeichnis für die Anwendung in einem Hadoop Distributed File System (HDFS) befindet. Standardmäßig speichert Amazon EMR Ereignisprotokolle im Verzeichnis /var/log/spark/apps des HDFS. Wenn du das Standardverzeichnis auf ein anderes Dateisystem wie Amazon Simple Storage Service (Amazon S3) änderst, läuft diese Funktion nicht. Weitere Informationen findest du unter Überlegungen und Einschränkungen.

Du kannst auf den Anwendungsverlauf und die relevanten Protokolldateien für aktive und beendete Cluster zugreifen. Die Protokolle sind nach Ende der Anwendung 30 Tage lang verfügbar. Weitere Informationen findest du unter Anzeigen von persistenten Anwendungsbenutzeroberflächen in Amazon EMR.

Benutzeroberflächen für Cluster-Anwendungen

Der Primärknoten hostet die Cluster-Benutzeroberflächen, und du benötigst eine SSH-Verbindung, um auf den Webserver zuzugreifen.

Gehe wie folgt vor, um auf die Cluster-Benutzeroberfläche zuzugreifen:

  1. Verwende SSH, um eine Verbindung zum Primärknoten herzustellen.
  2. Konfiguriere SSH-Tunneling mit dynamischer Port-Weiterleitung.
  3. Konfiguriere deinen Internetbrowser so, dass er ein Add-on wie FoxyProxy für Firefox oder SwitchyOmega für Chrome verwendet, um die SOCKS-Proxyeinstellungen zu verwalten.
    Hinweis: Diese Methode filtert URLs automatisch anhand von Textmustern. Außerdem beschränkt diese Methode die Proxyeinstellungen auf Domains, die der Form des DNS-Namens des Primärknotens entsprechen.

Auf eine Cluster-Benutzeroberfläche in einem privaten Subnetz kann nur dann direkt zugegriffen werden, wenn du ein lokales Netzwerk über eine VPN-Verbindung oder AWS Direct Connect verwendest. Außerdem musst du die Route so konfigurieren, dass die Kommunikation zwischen AWS und lokalen Netzwerken erfolgt.

Du kannst auch einen Bastion- oder Jump-Server verwenden, der in einem öffentlichen Subnetz gehostet wird, um eine Verbindung zu einem privaten Subnetz herzustellen. Erstelle dann SSH-Tunneling mit dynamischer Portweiterleitung. Weitere Informationen findest du unter Sicherer Zugriff auf Webschnittstellen auf Amazon EMR, die in einem privaten Subnetz gestartet wurden.

AWS OFFICIALAktualisiert vor 7 Monaten