AWS announces preview of AWS Interconnect - multicloud
AWS announces AWS Interconnect – multicloud (preview), providing simple, resilient, high-speed private connections to other cloud service providers. AWS Interconnect - multicloud is easy to configure and provides high-speed, resilient connectivity with dedicated bandwidth, enabling customers to interconnect AWS networking services such as AWS Transit Gateway, AWS Cloud WAN, and Amazon VPC to other cloud service providers with ease.
¿Por qué el nodo central de mi clúster de Amazon EMR se está quedando sin espacio en disco?
Ejecuto trabajos de Apache Spark en un clúster de Amazon EMR, pero en el nodo central casi no queda espacio en disco.
Resolución
Determinar si los nodos centrales están en mal estado
Cuando los nodos que tienen adjunto al menos un volumen de Amazon Elastic Block Store (Amazon EBS) alcanzan más del 90 % de utilización del disco, se considera que están en mal estado. Para determinar qué nodos han alcanzado el 90 % de utilización del disco, sigue estos pasos:
- Consulta la métrica de Amazon CloudWatch MRUnhealthyNodes. Esta métrica muestra la cantidad de nodos en mal estado en un clúster de EMR.
Nota: Puedes crear una alarma de CloudWatch para supervisar la métrica MRUnhealthyNodes. - Conéctate al nodo principal y accede al registro del controlador de instancias en /emr/instance-controller/log/instance-controller.log.
- En el registro del controlador de instancias, busca InstanceJointStatusMap para identificar los nodos en mal estado.
Para obtener más información, consulta la sección Uso elevado del disco debido a un nodo en mal estado de ¿Cómo resuelvo un error «ExecutorLostFailure: Slave lost» en Spark en Amazon EMR? - Para determinar si un montaje tiene una utilización alta, inicia sesión en los nodos centrales y, a continuación, ejecuta el siguiente comando:
df -h
Eliminación de los archivos locales y temporales de la aplicación Spark innecesarios
Cuando se ejecutan tareas de Spark, las aplicaciones de Spark crean archivos locales que consumen el resto del espacio de disco en el nodo central. Por ejemplo, si el comando df -h indica que /mnt utiliza más del 90 % del espacio de disco, comprueba qué directorios o archivos tienen una utilización alta.
Ejecuta el siguiente comando en el nodo central para ver los 10 directorios principales que utilizan más cantidad de espacio en disco:
cd /mnt sudo du -hsx * | sort -rh | head -10
Si el directorio /mnt/hdfs tiene un uso elevado, comprueba el uso del Sistema de archivos distribuidos de Hadoop (HDFS) y elimina los archivos innecesarios, como los archivos de registro. Para comprobar la utilización del espacio de un directorio específico, ejecuta el siguiente comando:
hdfs dfsadmin -report hadoop fs -du -s -h /path/to/dir
Nota: Sustituye /path/to/dir por la ruta del directorio para el que deseas comprobar el uso del espacio.
Reducción del periodo de retención de los registros de contenedores de YARN y eventos de Spark
En el directorio /var/log se almacenan archivos de registro, por ejemplo, de eventos de Spark y contenedores de YARN. Para limpiar automáticamente los archivos de registro de HDFS, reduce el periodo de retención.
Reducción del periodo de retención predeterminado para archivos del historial de tareas de Spark
De forma predeterminada, la ubicación de los archivos del historial de tareas de Spark se encuentra en /var/log/spark/apps. Cuando se ejecuta el depurador del historial del sistema de archivos, Spark elimina los archivos del historial de tareas con más de siete días de antigüedad.
Para reducir el periodo de retención predeterminado en un clúster en ejecución, sigue estos pasos:
- Usa SSH para conectarte al nodo principal.
- Agrega o actualiza los siguientes valores en /etc/spark/conf/spark-defaults.conf:
La configuración anterior ejecuta el depurador cada 12 horas. La configuración elimina los archivos con más de 1 día de antigüedad. Puedes personalizar este periodo de tiempo en los parámetros spark.history.fs.cleaner.internval y spark.history.fs.cleaner.maxAge.------spark.history.fs.cleaner.enabled true spark.history.fs.cleaner.interval 12h spark.history.fs.cleaner.maxAge 1d ------ - Reinicia el servidor del historial de Spark.
Para reducir el periodo de retención predeterminado de los archivos del historial de trabajos de Spark al iniciar el clúster, usa la siguiente configuración:
{ "Classification": "spark-defaults", "Properties": { "spark.history.fs.cleaner.enabled": "true", "spark.history.fs.cleaner.interval": "12h", "spark.history.fs.cleaner.maxAge": "1d" } }
Puedes personalizar el periodo de tiempo en los parámetros spark.history.fs.cleaner.interval y spark.history.fs.cleaner.maxAge.
Para obtener más información sobre estos parámetros, consulta Monitoring and instrumentation (Supervisión e instrumentación) en el sitio web de Apache Spark.
Reducción del periodo de retención predeterminado de los registros de contenedores de YARN
Los registros de aplicaciones de Spark son los registros de contenedores de YARN correspondientes a tus trabajos de Spark, que se encuentran /var/log/hadoop-yarn/apps en el nodo central. Spark mueve estos registros a HDFS cuando la aplicación termina de ejecutarse. De forma predeterminada, YARN conserva los registros de aplicaciones en HDFS durante 48 horas. Para reducir el periodo de retención, sigue estos pasos:
- Usa SSH para conectarte al nodo principal, central o de tarea.
- Abre el archivo /etc/hadoop/conf/yarn-site.xml en cada nodo de tu clúster de EMR (nodo principal, central y de tarea).
- Reduce el valor de la propiedad yarn.log-aggregation.retain-seconds en todos los nodos.
- Reinicia el daemon de ResourceManager.
También puedes volver a configurar el clúster para reducir el periodo de retención.
Reducción del uso de /mnt/yarn
Cuando el uso del disco en el directorio /mnt/yarn es alto, ajusta la retención de la memoria caché del usuario o escala los volúmenes de EBS del nodo. Para obtener más información, consulta ¿Cómo puedo detener la caché de usuario de un trabajo de Hadoop o Spark para que no utilice demasiado espacio de disco en Amazon EMR?
Ajuste del tamaño del clúster o escalamiento de Amazon EMR
Para evitar problemas de espacio en HDFS, escala la cantidad de nodos centrales. Además, si los directorios distintos de los directorios de HDFS se llenan, escala el número de nodos centrales o de tarea. Para obtener más información, consulta Uso del escalamiento de clústeres de Amazon EMR para adaptarse a las cargas de trabajo cambiantes.
También puedes ampliar los volúmenes de EBS en los nodos existentes o utilizar un script de escalamiento dinámico. Para obtener más información, consulta ¿Cómo soluciono los errores de etapa "no space left on device" en el trabajo de Apache Spark en Amazon EMR?
Información relacionada
Configuración del hardware y las redes de los clústeres de Amazon EMR
Trabajo con almacenamiento y sistemas de archivos con Amazon EMR
- Temas
- Analytics
- Etiquetas
- Amazon EMR
- Idioma
- Español

Contenido relevante
- preguntada hace un mes
- preguntada hace un mes
- preguntada hace 2 meses
- preguntada hace 10 meses
OFICIAL DE AWSActualizada hace 3 años