跳至內容

我該如何存取 Amazon EMR 中的 Spark 使用者介面?

1 分的閱讀內容
0

我想查看 Amazon EMR 叢集所提供的 Apache Spark 網頁使用者介面。

解決方法

Spark History Server 是一個網頁使用者介面,您可以在其中查看 Amazon EMR 叢集上正在執行及已完成的 Spark 作業狀態。

若要存取位於公用或私有子網路中的 Spark 使用者介面,您可以使用持久化應用程式使用者介面或叢集內應用程式使用者介面。

持久化應用程式使用者介面

在您的 Amazon EMR 叢集中,apppusher 常駐程式會定期將 Spark 事件日誌傳送到 Amazon EMR 生產儲存貯體。持久化 Spark 使用者介面會使用這些事件日誌來顯示 Spark 應用程式。

當應用程式的事件日誌目錄位於 Hadoop 分散式檔案系統 (HDFS) 時,此功能才能運作。預設情況下,Amazon EMR 會將事件日誌儲存在 HDFS 的 /var/log/spark/apps 目錄中。如果您將預設目錄更改為其他檔案系統,例如 Amazon Simple Storage Service (Amazon S3),則此功能將無法運作。如需更多資訊,請參閱注意事項與限制

您可以存取活動叢集及已終止叢集的應用程式歷史記錄與相關日誌檔案。應用程式結束後,日誌可保存 30 天。如需更多資訊,請參閱在 Amazon EMR 中查看持久化應用程式使用者介面

叢集內應用程式使用者介面

主要節點主機託管叢集內的使用者介面,您需要透過 SSH 連線才能存取網頁伺服器。

若要存取叢集內使用者介面,請完成以下步驟:

  1. 使用 SSH 連線至主節點
  2. 設定具有動態連接埠轉送的 SSH 通道
  3. 設定您的網際網路瀏覽器,使用如 Firefox 的 FoxyProxy 或 Chrome 的 SwitchyOmega 附加元件來管理 SOCKS Proxy。
    **注意:**此方法會自動根據文字模式篩選網址。此外,此方法會將 Proxy 設定限制於與主要節點 DNS 名稱格式相符的網域。

位於私有子網路的叢集內使用者介面無法直接存取,除非您透過 VPN 連線或 AWS Direct Connect 使用本機網路。且您必須設定路由,以便跨 AWS 與本機網路進行通訊。

或者,您可以使用託管於公用子網路的堡壘或跳板伺服器來連線至私有子網路。接著,建立具有動態連接埠轉送的 SSH 通道。 如需更多資訊,請參閱安全存取在私有子網路中啟動的 Amazon EMR 網頁介面

AWS 官方已更新 2 個月前