내용으로 건너뛰기

Amazon EMR에서 Spark 사용자 인터페이스에 액세스하려면 어떻게 해야 합니까?

2분 분량
0

Amazon EMR 클러스터에서 호스팅되는 Apache Spark 웹 사용자 인터페이스를 보고 싶습니다.

해결 방법

Spark 기록 서버는 Amazon EMR 클러스터에서 실행 중인 Spark 작업 및 완료된 Spark 작업의 상태를 볼 수 있는 웹 사용자 인터페이스입니다.

퍼블릭 또는 프라이빗 서브넷에서 호스팅되는 Spark 사용자 인터페이스에 액세스하려면 영구 애플리케이션 사용자 인터페이스 또는 클러스터 내 애플리케이션 사용자 인터페이스를 사용하십시오.

영구 애플리케이션 사용자 인터페이스

Amazon EMR 클러스터에서 apppusher 대몬은 Spark 이벤트 로그를 Amazon EMR 프로덕션 버킷으로 정기적으로 전송합니다. 영구 Spark 사용자 인터페이스는 이벤트 로그를 사용하여 Spark 애플리케이션을 표시합니다.

이 기능은 애플리케이션의 이벤트 로그 디렉터리가 Hadoop 분산 파일 시스템(HDFS)에 있을 때 작동합니다. 기본적으로 Amazon EMR은 HDFS의 /var/log/spark/apps 디렉터리에 이벤트 로그를 저장합니다. 기본 디렉터리를 Amazon Simple Storage Service(Amazon S3)와 같은 다른 파일 시스템으로 변경하면 이 기능이 작동하지 않습니다. 자세한 내용은 고려 사항 및 제한 사항을 참조하십시오.

활성 클러스터 및 종료된 클러스터의 애플리케이션 기록과 관련 로그 파일에 액세스할 수 있습니다. 로그는 애플리케이션 종료 후 30일 동안 사용할 수 있습니다. 자세한 내용은 Amazon EMR의 영구 애플리케이션 사용자 인터페이스 보기를 참고하십시오.

클러스터 내 애플리케이션 사용자 인터페이스

기본 노드는 클러스터 내 사용자 인터페이스를 호스팅하며 웹 서버에 액세스하려면 SSH 연결이 필요합니다.

클러스터 내 사용자 인터페이스에 액세스하려면 다음 단계를 완료하십시오.

  1. SSH를 사용하여 기본 노드에 연결합니다.
  2. 동적 포트 전달을 사용하여 SSH 터널링을 구성합니다.
  3. FoxyProxy for Firefox시 또는 SwitchyOmega for Chrome과 같은 애드온을 사용하여 SOCKS 프록시 설정을 관리하도록 인터넷 브라우저를 구성합니다.
    참고: 이 방법은 텍스트 패턴을 기반으로 URL을 자동으로 필터링합니다. 또한 이 방법은 프록시 설정을 기본 노드의 DNS 이름 형식과 일치하는 도메인으로 제한합니다.

프라이빗 서브넷의 클러스터 내 사용자 인터페이스는 VPN 연결 또는 AWS Direct Connect를 통해 로컬 네트워크를 사용해야만 직접 액세스할 수 있습니다. 또한 통신이 AWS와 로컬 네트워크를 포괄하도록 경로를 구성해야 합니다.

또는 퍼블릭 서브넷에서 호스팅되는 배스천 또는 점프 서버를 사용하여 프라이빗 서브넷에 연결할 수 있습니다. 그런 다음 동적 포트 전달을 사용하여 SSH 터널링을 만듭니다. 자세한 내용은 프라이빗 서브넷에서 시작된 Amazon EMR의 웹 인터페이스에 안전하게 액세스를 참조하십시오.

AWS 공식업데이트됨 4달 전