Quelles étapes de planification puis-je suivre lors de la mise à niveau de mon cluster Amazon EMR ?
Je dois planifier une mise à niveau vers Amazon EMR pour suivre le rythme de l'évolution rapide de la technologie.
Brève description
Pour suivre l'évolution rapide du Big Data, vous devez mettre à niveau votre version d'Amazon EMR. La migration vers une nouvelle version d'Amazon EMR améliore l'excellence opérationnelle et l'efficacité de votre charge de travail. Toutefois, avant de procéder à la mise à niveau d'Amazon EMR, vous devez planifier et vous préparer. Il y a des informations que vous devez examiner et des procédures que vous devez suivre.
Avantages des mises à niveau de version Amazon EMR
Les avantages de la mise à niveau d'Amazon EMR incluent :
- Productivité accrue et coûts réduits grâce aux fonctionnalités les plus récentes.
- Les applications mises à jour s'exécutent plus rapidement.
- Les corrections de bogues mises à jour fournissent une infrastructure stable.
- Les derniers correctifs de sécurité renforcent la sécurité.
- Accès mis à jour aux fonctionnalités des logiciels open source.
Par exemple, avec Amazon EMR version 6.6 et versions ultérieures, Log4j 1.x et Log4j 2.x sont respectivement mis à niveau vers Log4j 1.2.17 et Log4j 2.17.1 (ou version ultérieure). Dans les versions supérieures, aucune action d'amorçage n'est requise pour atténuer les vulnérabilités et expositions courantes (CVE).
Solution
Fonctionnalités d'optimisation des performances d'Amazon EMR pour les applications open source
Amazon EMR propose des fonctionnalités d'optimisation des performances pour de nombreuses applications open source.
Spark :
- Exécution de requêtes adaptative
- Élagage dynamique des partitions
- Mise à plat de sous-requêtes scalaires
- DISTINCT avant INTERSECT
- Joindre le filtre Bloom
- Réorganisation optimisée des jointures
- Performances de Spark améliorées grâce à Amazon Simple Storage Service (Amazon S3)
- Historique des versions de Spark : avant de décider de mettre à niveau Amazon EMR, vérifiez la version de Spark et de ses composants installés dans les versions d'Amazon EMR.
Lac Delta :
- Utilisation d'un cluster Delta Lake avec Spark
- Utilisation d'un cluster Delta Lake avec Trino
- Historique des versions de Delta : avant de décider de mettre à niveau Amazon EMR, vérifiez la version de Delta Lake et ses composants installés dans les versions d'Amazon EMR.
Flink :
- Flink est supporté en tant qu'application YARN
- Historique des versions de Flink : avant de décider de mettre à niveau Amazon EMR, vérifiez la version de Flink et ses composants installés dans les versions d'Amazon EMR.
Hadoop :
- Chiffrement transparent dans le système de fichiers distribué Hadoop (HDFS)
- Prise en compte non uniforme de l'accès à la mémoire pour les conteneurs YARN
- Historique des versions de Hadoop : avant de décider de mettre à niveau Amazon EMR, vérifiez la version de Hadoop et ses composants installés dans les versions d'Amazon EMR.
HBase :
- HBase sur Amazon S3
- Clusters de répliques HBase Read
- Instantanés HBase
- Historique des versions de HBase : avant de décider de mettre à niveau Amazon EMR, vérifiez la version de HBase et ses composants installés dans les versions Amazon EMR.
HCatalog :
- Intégrations avec les versions d'Amazon EMR
- Utilisation du catalogue de données AWS Glue comme métastore pour Apache Hive
- Historique des versions de HCatalog : avant de décider de mettre à niveau Amazon EMR, vérifiez la version de HCatalog et ses composants installés dans les versions d'Amazon EMR.
Hive :
- Transactions ACID et Amazon S3
- Hive Live Long and Process (LLAP)
- Améliorez les performances de Hive
- Démarrez le validateur optimisé S3 du système de fichiers Hive EMR (EMRFS)
- Utilisation de S3 Select avec Hive pour améliorer les performances
- Optimisation de la commande Metastore Check (MSCK)
- Historique des versions de Hive : avant de décider de mettre à niveau Amazon EMR, vérifiez la version de Hive et ses composants installés dans les versions d'Amazon EMR.
Hudi :
- Intégrations avec les versions d'Amazon EMR
- Historique des versions de Hudi : avant de décider de mettre à niveau Amazon EMR, vérifiez la version de Hudi et ses composants installés dans les versions d'Amazon EMR.
Iceberg :
- Intégrations avec les versions d'Amazon EMR
- Historique des versions d'Iceberg : avant de décider de mettre à niveau Amazon EMR, vérifiez la version d'Iceberg et ses composants installés dans les versions d'Amazon EMR.
Presto et Trino :
- Intégrations avec les versions d'Amazon EMR
- Utilisation de S3 Select Pushdown avec Presto pour améliorer les performances
- Ajouter des connecteurs de base de données
- Activation du mode strict Presto
- Gestionnaire d'échange
- Utilisation de la mise à l'échelle automatique de Presto avec Graceful Decommission
- Historique des versions de Presto et notes de mise à jour de Trino : Avant de décider de mettre à niveau Amazon EMR, vérifiez la version de Presto ou Trino et ses composants installés dans les versions d'Amazon EMR.
Planification des mises à niveau des versions d'Amazon EMR
Suivez ces étapes pour préparer la mise à niveau de la version Amazon EMR :
- Recherchez les problèmes auxquels vous êtes confronté dans votre version actuelle d'Amazon EMR.
- Isolez un petit sous-ensemble d'applications ou de requêtes que vous souhaitez utiliser pour tester les performances de votre cluster EMR.
- Configurez une stratégie de test A/B pour déterminer la version Amazon EMR la mieux adaptée à votre solution. Lors des tests A/B pour Amazon EMR, vous testez deux versions différentes du service afin de comparer leurs performances dans votre environnement.
- Migrez progressivement la charge de travail vers la nouvelle version d'Amazon EMR. Si vous découvrez des problèmes majeurs sur la version de production d'Amazon EMR, vous pouvez terminer le processus de migration ici.
- Une fois la migration terminée, mettez fin à l'ancien cluster Amazon EMR.
Résolution des problèmes liés aux mises à niveau des versions d'Amazon EMR
Suivez ces étapes pour résoudre les problèmes que vous rencontrez lors de la mise à niveau de votre version Amazon EMR :
- Reconfigurez l'application. Vérifiez si les modifications améliorent les performances de votre application.
- Vérifiez si les problèmes ont été résolus par une version plus récente de l'application.
- Modifiez l'application ou les requêtes pour voir si vous pouvez éviter les problèmes.
- Vérifiez les défauts non corrigés et les solutions de rechange pour améliorer l'application. Contactez AWS Premium Support pour savoir s'il existe une solution.
- Arrêtez la migration vers Amazon EMR jusqu'à ce que le problème soit résolu ou qu'une solution de contournement existe.
Considérations relatives aux mises à niveau de la version Amazon EMR
Lorsque vous mettez à niveau votre version d'Amazon EMR, la régression des performances peut entraîner des problèmes. Les mises à niveau peuvent modifier l'API, ce qui peut affecter la capacité de votre code à s'exécuter sur une interface plus récente. Des ralentissements et des défaillances de l'application peuvent survenir après une mise à niveau de la version Amazon EMR.
Lorsque vous envisagez de mettre à niveau votre version d'Amazon EMR, il est recommandé de lire le document What's new ? section du guide de publication. La section Quoi de neuf ? contient des informations sur les versions et les dates de sortie d'Amazon EMR, ainsi que des solutions aux problèmes courants liés aux applications open source.
Recherchez les modifications apportées aux applications open source et les problèmes en suspens
Consultez les notes de publication suivantes et identifiez les défauts avant de décider de migrer vers une nouvelle version d'Amazon EMR. La liste d'applications suivante est basée sur la version 6.9 d'Amazon EMR.
Remarque : Ces hyperliens vous redirigent vers les sites Web d'applications tierces, GitHub ou le site Web d'Apache.
- Notes de mise à jour de Flink sous Upgrade Flink et suivi des problèmes
- Notes de publication et suivi des problèmes Ganglia
- Notes de mise à jour et suivi des problèmes Hadoop
- Notes de mise à jour et suivi des problèmes de HBase
- Notes de mise à jour et suivi des problèmes HCatalog
- Notes de mise à jour et suivi des problèmes liés à Hive
- Notes de mise à jour et suivi des problèmes Hue
- Notes de mise à jour et suivi des problèmes de Jupyter Enterprise Gateway
- Notes de mise à jour et suivi des problèmes de JupyterHub
- Notes de publication et suivi des problèmes de Livy
- Notes de mise à jour et suivi des problèmes de MXNet
- Notes de mise à jour et suivi des problèmes d'Oozie
- Notes de mise à jour et suivi des problèmes de Phoenix
- Notes de mise à jour de Pig et suivi des problèmes
- Notes de mise à jour et suivi des problèmes de Presto
- Notes de mise à jour et suivi des problèmes liés à Spark
- Notes de mise à jour de Sqoop sous la rubrique Mises à jour et suivi des problèmes
- Notes de publication et suivi des problèmes de TensorFlow
- Notes de publication et suivi des problèmes de Tez
- Notes de publication et suivi des problèmes de Trino
- Notes de publication et suivi des problèmes de Zeppelin
- Notes de publication et suivi des problèmes de ZooKeeper
Contenus pertinents
- demandé il y a 2 anslg...
- demandé il y a un moislg...
- demandé il y a 7 moislg...
- demandé il y a un anlg...
- AWS OFFICIELA mis à jour il y a un mois
- AWS OFFICIELA mis à jour il y a 2 ans
- AWS OFFICIELA mis à jour il y a 2 ans
- AWS OFFICIELA mis à jour il y a un an