¿Qué medidas de planificación puedo tomar al actualizar mi clúster de Amazon EMR?
Necesito planificar una actualización de Amazon EMR para mantenerme al día con una tecnología que cambia rápidamente.
Descripción breve
Para mantenerse al día de los cambios en los macrodatos, debe actualizar su versión de Amazon EMR. La migración a una nueva versión de Amazon EMR mejora la excelencia operativa y la eficacia de su carga de trabajo. Sin embargo, antes de actualizar Amazon EMR, debe planificarse y prepararse. Hay información que debe revisar y procedimientos que debe seguir.
Ventajas de las actualizaciones de versión de Amazon EMR
Las ventajas de actualizar Amazon EMR incluyen:
- Aumento de la productividad y reducción de costos gracias a las características más recientes.
- Las aplicaciones actualizadas se ejecutan más rápido.
- Las últimas correcciones de errores proporcionan una infraestructura estable.
- Las revisiones de seguridad más recientes refuerzan la seguridad.
- Acceso actualizado a características de software de código abierto.
Por ejemplo, con las versiones 6.6 y posteriores de Amazon EMR, Log4j 1.x y Log4j 2.x se actualizan a Log4j 1.2.17 y Log4j 2.17.1 (o versiones posteriores), respectivamente. En las versiones superiores, las acciones de arranque no son necesarias para mitigar las vulnerabilidades y exposiciones comunes (CVE).
Resolución
Características de optimización del desempeño de Amazon EMR para aplicaciones de código abierto
Amazon EMR ofrece características de optimización del desempeño para muchas aplicaciones de código abierto.
Spark:
- Ejecución adaptativa de consultas
- División dinámica de particiones
- Aplanamiento de subconsultas escalares
- DISTINCT antes de INTERSECT
- Combinación de filtros Bloom
- Reordenamiento de combinaciones optimizado
- Rendimiento mejorado de Spark con Amazon Simple Storage Service (Amazon S3)
- Historial de versiones de Spark: antes de decidirse a actualizar Amazon EMR, compruebe la versión de Spark y sus componentes instalados en las versiones de Amazon EMR.
Delta Lake:
- Uso de un clúster de Delta Lake con Spark
- Uso de un clúster de Delta Lake con Trino
- Historial de versiones de Delta: antes de decidirse a actualizar Amazon EMR, compruebe la versión de Delta Lake y sus componentes instalados en las versiones de Amazon EMR.
Flink:
- Flink es compatible como aplicación de YARN
- Historial de versiones de Flink: antes de decidirse a actualizar Amazon EMR, compruebe la versión de Flink y sus componentes instalados en las versiones de Amazon EMR.
Hadoop:
- Cifrado transparente del Sistema de archivos distribuido de Hadoop (HDFS)
- Reconocimiento de acceso a memoria no uniforme para contenedores YARN
- Historial de versiones de Hadoop: antes de decidirse a actualizar Amazon EMR, compruebe la versión de Hadoop y sus componentes instalados en las versiones de Amazon EMR.
HBase:
- HBase en Amazon S3
- Clústeres de réplica de lectura de HBase
- Instantáneas de HBase
- Historial de versiones de HBase: antes de decidirse a actualizar Amazon EMR, compruebe la versión de HBase y sus componentes instalados en las versiones de Amazon EMR.
HCatalog:
- Integraciones con las versiones de Amazon EMR
- Uso del Catálogo de datos de AWS Glue como metaalmacén para Apache Hive
- Historial de versiones de HCatalog: antes de decidirse a actualizar Amazon EMR, compruebe la versión de HCatalog y sus componentes instalados en las versiones de Amazon EMR.
Hive:
- Transacciones de ACID y Amazon S3
- Live Long and Process (LLAP) de Hive
- Mejora del rendimiento de Hive
- Inicio del confirmador optimizado para S3 del Sistema de archivos EMR (EMRFS) de Hive
- Uso de S3 Select con Hive para mejorar el rendimiento
- Optimización del comando de comprobación de metaalmacén (MSCK)
- Historial de versiones de Hive: antes de decidirse a actualizar Amazon EMR, compruebe la versión de Hive y sus componentes instalados en las versiones de Amazon EMR.
Hudi:
- Integraciones con las versiones de Amazon EMR
- Historial de versiones de Hudi: antes de decidirse a actualizar Amazon EMR, compruebe la versión de Hudi y sus componentes instalados en las versiones de Amazon EMR.
Iceberg:
- Integraciones con las versiones de Amazon EMR
- Historial de versiones de Iceberg: antes de decidirse a actualizar Amazon EMR, compruebe la versión de Iceberg y sus componentes instalados en las versiones de Amazon EMR.
Presto y Trino:
- Integraciones con las versiones de Amazon EMR
- Uso de la inserción de S3 Select con Presto para mejorar el rendimiento
- Incorporación de conectores de bases de datos
- Activación el modo estricto de Presto
- Administrador de intercambios
- Uso del escalado automático de Presto con Graceful Decommission
- Historial de versiones de Presto y notas de lanzamiento de Trino: antes de decidirse a actualizar Amazon EMR, compruebe la versión de Presto o Trino y sus componentes instalados en las versiones de Amazon EMR.
Planificación de las actualizaciones de versión de Amazon EMR
Siga estos pasos para prepararse para la actualización de la versión de Amazon EMR:
- Investigue los problemas a los que se enfrenta en su versión actual de Amazon EMR.
- Aísle un pequeño subconjunto de aplicaciones o consultas que desee utilizar para comprobar el rendimiento del clúster de EMR.
- Configure una estrategia de pruebas A/B para decidir la versión de Amazon EMR que mejor se adapte a su solución. En las pruebas A/B para Amazon EMR, se comprueban dos versiones diferentes del servicio para comparar el rendimiento en su entorno.
- Migre gradualmente la carga de trabajo a la nueva versión de Amazon EMR. Si descubre problemas importantes en la versión de producción de Amazon EMR, puede finalizar el proceso de migración aquí.
- Una vez finalizada la migración, finalice el antiguo clúster de Amazon EMR.
Solucionar problemas relacionados con las actualizaciones de versión de Amazon EMR
Siga estos pasos para solucionar los problemas que surjan al actualizar su versión de Amazon EMR:
- Vuelva a configurar la aplicación. Observe si los cambios mejoran el rendimiento de la aplicación.
- Compruebe si una versión más reciente de la aplicación ha resuelto los problemas.
- Cambie la aplicación o las consultas para ver si puede evitar los problemas.
- Compruebe los defectos y las soluciones alternativas disponibles para mejorar la aplicación. Póngase en contacto con AWS Premium Support para averiguar si hay soluciones alternativas.
- Detenga la migración a Amazon EMR hasta que se solucione el problema o se encuentre una solución alternativa.
Consideraciones sobre las actualizaciones de versión de Amazon EMR
Al actualizar su versión de Amazon EMR, la regresión del rendimiento puede causar problemas. Las actualizaciones pueden cambiar la API, lo cual puede hacer que el código no pueda ejecutarse en una interfaz más reciente. Es posible que la aplicación se ralentice y se produzcan errores después de actualizar la versión de Amazon EMR.
Cuando esté pensando en actualizar su versión de Amazon EMR, es recomendable leer la sección de novedades de la guía de la versión. La sección de novedades incluye información sobre las versiones y fechas de lanzamiento de Amazon EMR, junto con soluciones a problemas comunes con las aplicaciones de código abierto.
Investigar los cambios en las aplicaciones de código abierto y los problemas pendientes de resolver
Consulte las siguientes notas de la versión y compruebe si presenta defectos antes de decidirse a migrar a una nueva versión de Amazon EMR. La siguiente lista de aplicaciones se basa en la versión 6.9 de Amazon EMR.
Nota: Estos hipervínculos enlazan a sitios web de aplicaciones de terceros, GitHub o el sitio web de Apache.
- Notas de lanzamiento de Flink en Actualización de Flink y seguimiento de problemas
- Notas de lanzamiento y seguimiento de problemas de Ganglia
- Notas de lanzamiento y seguimiento de problemas de Hadoop
- Notas de lanzamiento y seguimiento de problemas de HBase
- Notas de lanzamiento y seguimiento de problemas de HCatalog
- Notas de lanzamiento y seguimiento de problemas de Hive
- Notas de lanzamiento y seguimiento de problemas de Hue
- Notas de lanzamiento y seguimiento de problemas de JupyterEnterpriseGateway
- Notas de lanzamiento y seguimiento de problemas de JupyterHub
- Notas de lanzamiento y seguimiento de problemas de Livy
- Notas de lanzamiento y seguimiento de problemas de MXNet
- Notas de lanzamiento y seguimiento de problemas de Oozie
- Notas de lanzamiento y seguimiento de problemas de Phoenix
- Notas de lanzamiento y seguimiento de problemas de Pig
- Notas de lanzamiento y seguimiento de problemas de Presto
- Notas de lanzamiento y seguimiento de problemas de Spark
- Notas de lanzamiento en Lanzamientos y seguimiento de problemas de Sqoop
- Notas de lanzamiento y seguimiento de problemas de TensorFlow
- Notas de lanzamiento y seguimiento de problemas de Tez
- Notas de lanzamiento y seguimiento de problemas de Trino
- Notas de lanzamiento y seguimiento de problemas de Zeppelin
- Notas de lanzamiento y seguimiento de problemas de ZooKeeper
Contenido relevante
- OFICIAL DE AWSActualizada hace 2 años
- OFICIAL DE AWSActualizada hace 4 años
- OFICIAL DE AWSActualizada hace un mes
- OFICIAL DE AWSActualizada hace 3 meses