¿Por qué no puedo conectar mi cuaderno de EMR al clúster?
No puedo conectar mi cuaderno de Amazon EMR a mi clúster de EMR.
Descripción breve
Al conectar un cuaderno de EMR al clúster de EMR, es posible que reciba errores similares a los siguientes:
- Unable to attach to cluster j-XXXXXXXXXXX. Reason: Attaching the workspace(notebook) failed. Internal error. (No se puede conectar al clúster j-XXXXXXXXXXX. Motivo: no se pudo adjuntar el espacio de trabajo [cuaderno]. Error interno).
- Notebook is not supported in the chosen Availability Zone. Please try using a cluster in another availability zone. (No se admite el cuaderno en la zona de disponibilidad elegida. Intente utilizar un clúster en otra zona de disponibilidad).
- Attaching the workspace(notebook) failed. Invalid configuration. (No se pudo adjuntar el espacio de trabajo [cuaderno]. Configuración no válida).
- Workspace(notebook) is stopped. Cluster j-XXXXXXXXXX does not have JupyterEnterpriseGateway application installed. Please retry with another cluster. (Se detuvo el espacio de trabajo [cuaderno]. El clúster j-XXXXXXXXXX no tiene instalada la aplicación JupyterEnterpriseGateway. Vuelva a intentarlo con otro clúster).
- Workspace errors: Not able to attached EMR notebook to running cluster. Error starting kernel. HTTP 403: Forbidden (Workspace is not attached to cluster. Click 'Ok' to continue.) (Errores del espacio de trabajo: no se puede conectar el cuaderno de EMR al clúster en ejecución. Error al iniciar el kernel. HTTP 403: Prohibido [el espacio de trabajo no está conectado al clúster. Haga clic en “Aceptar” para continuar]).
Resolución
Verifique que el clúster adjunto sea compatible y cumpla con todos los requisitos del clúster
Los requisitos de clúster para los cuadernos de EMR son los siguientes:
1. Solo se admiten los clústeres creados con la versión 5.18.0 y posteriores de Amazon EMR.
2. No se admiten los clústeres creados con instancias de Amazon Elastic Compute Cloud (Amazon EC2) con procesadores AMD EPYC. Por ejemplo, no se admiten los tipos de instancia m5a.* y r5a.*.
3. Los cuadernos de EMR solo funcionan con clústeres creados con la variable VisibleToAllUsers establecida en true (verdadero). VisibleToAllUsers se establece en true (verdadero) de forma predeterminada.
4. El clúster debe lanzarse dentro de una Amazon Virtual Private Cloud (Amazon VPC) de EC2. Se admiten subredes públicas y privadas.
5. Los cuadernos de EMR actualmente solo admiten clústeres de Apache Spark.
6. Para las versiones 5.32.0 y posteriores de EMR, o 6.2.0 y posteriores, el clúster debe ejecutar la aplicación Jupyter Enterprise Gateway.
7. No se admiten los clústeres que utilizan la autenticación con Kerberos.
8. Los clústeres integrados con AWS Lake Formation solo admiten la instalación de bibliotecas para cuadernos. No se admite la instalación de kernels y bibliotecas en el clúster.
9. No se admiten los clústeres con varios nodos principales.
10. No se admiten los clústeres que utilicen instancias de Amazon EC2 basadas en AWS Graviton2.
Para obtener más información, consulte Requisitos de clúster.
Error: Unable to attach to cluster j-XXXXXXXXXXX. Reason: Attaching the workspace(notebook) failed. Internal error (Error: No se puede conectar al clúster j-XXXXXXXXXXX. Motivo: no se pudo adjuntar el espacio de trabajo [cuaderno]. Error interno).
Esto ocurre en clústeres de EMR con la suplantación de Apache Livy activada. Esto significa que la variable livy.impersonation.enabled se encuentra establecida en true (verdadero). En Amazon EMR 6.4.0, la suplantación de Livy se encuentra establecida en true (verdadero) de forma predeterminada. La característica de cuadernos de EMR con la suplantación de usuarios de Livy desactivada también tiene HttpFS desactivado de forma predeterminada. Esto significa que el cuaderno de EMR no puede conectarse a clústeres que tengan activada la suplantación de Livy. Para obtener más información, consulte Versión 6.4.0 de Amazon EMR.
Para evitar este problema, haga lo siguiente:
Puede usar cualquier versión anterior o más reciente de EMR 6.4.0 en la que se ejecute el servicio hadoop-httpfs.
De forma alternativa, haga lo siguiente:
Reinicie el servicio hadoop-httpfs en el clúster de la siguiente manera:
1. Utilice SSH para conectarse al nodo principal de EMR.
2. Ejecute el siguiente comando para iniciar el servicio hadoop-httpfs:
sudo systemctl start hadoop-httpfs
O puede iniciar el servicio hadoop-httpfs mediante un paso de EMR:
========== JAR location: command-runner.jar Main class: None Arguments: bash -c "sudo systemctl start hadoop-httpfs" Action on failure: Continue ==========
Ejecute el siguiente comando para comprobar el estado de HttpFS:
$ sudo systemctl status hadoop-httpfs hadoop-httpfs.service - Hadoop httpfs Loaded: loaded (/etc/systemd/system/hadoop-httpfs.service; disabled; vendor preset: disabled) Active: active (running)...
3. Vuelva a conectar el clúster de EMR.
Error: Workspace errors (Error: Errores en el espacio de trabajo)
Los siguientes son errores comunes en el espacio de trabajo al intentar conectar el clúster de EMR a un cuaderno de EMR:
- Not able to attached EMR notebook to running cluster (No se puede conectar el cuaderno de EMR al clúster en ejecución).
- Error Starting Kernel (Error al iniciar el kernel).
- HTTP 403: Forbidden (Workspace is not attached to cluster. Click 'Ok' to continue.) (HTTP 403: Prohibido [el espacio de trabajo no está conectado al clúster. Haga clic en “Aceptar” para continuar]).
Estos errores se producen porque la cuenta raíz de AWS no está autorizada a adjuntar cuadernos de EMR a los clústeres de EMR. El usuario raíz se considera un usuario no autorizado para iniciar kernels. Si el valor de KERNEL_USERNAME aparece en la lista unauthorized_users, se produce un error en la solicitud de conexión. Para obtener más información, consulte Características de seguridad.
Para evitar errores en el espacio de trabajo, cree un usuario de AWS Identity and Access Manager (AWS IAM) y luego adjunte el clúster al cuaderno. Para obtener más información, consulte Creación de un usuario de IAM en su cuenta de AWS.
Contenido relevante
- OFICIAL DE AWSActualizada hace 2 años
- OFICIAL DE AWSActualizada hace 2 años
- OFICIAL DE AWSActualizada hace 2 meses
- OFICIAL DE AWSActualizada hace 2 años