Welche Planungsschritte kann ich beim Upgrade meines Amazon-EMR-Clusters ergreifen?
Ich muss ein Amazon-EMR-Upgrade planen, um mit den sich schnell ändernden Technologien Schritt zu halten.
Kurzbeschreibung
Um mit den schnellen Veränderungen im Bereich Big Data Schritt zu halten, müssen Sie Ihre Version von Amazon EMR aktualisieren. Die Migration auf eine neue Version von Amazon EMR verbessert die betriebliche Exzellenz und Effizienz Ihres Workloads. Bevor Sie jedoch ein Upgrade von Amazon EMR durchführen, müssen Sie planen und sich darauf vorbereiten. Es gibt Informationen, die Sie überprüfen müssen, und Verfahren, die Sie befolgen müssen.
Vorteile von Amazon-EMR-Versionsupgrades
Zu den Vorteilen eines Upgrades von Amazon EMR gehören:
- Höhere Produktivität und geringere Kosten durch die Nutzung der neuesten Funktionen.
- Aktualisierte Anwendungen laufen schneller.
- Aktuelle Bugfixes sorgen für eine stabile Infrastruktur.
- Die neuesten Sicherheitspatches erhöhen die Sicherheit.
- Aktueller Zugriff auf Open-Source-Softwarefunktionen.
Beispielsweise werden Log4j 1.x und Log4j 2.x mit Amazon EMR Version 6.6 und höher auf Log4j 1.2.17 bzw. Log4j 2.17.1 (oder höher) aktualisiert. In den höheren Versionen sind keine Bootstrap-Aktionen erforderlich, um Common Vulnerabilities and Exposures (CVEs) zu minimieren.
Lösung
Funktionen zur Leistungsoptimierung von Amazon EMR für Open-Source-Anwendungen
Amazon EMR bietet Funktionen zur Leistungsoptimierung für viele Open-Source-Anwendungen.
Spark:
- Adaptive Abfrageausführung
- Dynamisches Beschneiden von Partitionen
- Verflachung skalarer Unterabfragen
- DISTINCT vor INTERSECT
- Bloom-Filter beitreten
- Optimierte Neureihenfolge von Joins
- Verbesserte Spark-Leistung mit Amazon Simple Storage Service (Amazon S3)
- Versionshistorie von Spark: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von Spark und die installierten Komponenten in den Amazon-EMR-Versionen.
Delta-Lake:
- Verwenden eines Delta-Lake-Clustern mit Spark
- Verwenden eines Delta-Lake-Clustern mit Trino
- Delta-Versionshistorie: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von Delta-Lake und den installierten Komponenten in den Amazon-EMR-Versionen.
Flink:
- Flink wird als YARN-Anwendung unterstützt
- Versionshistorie von Flink: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von Flink und die installierten Komponenten in den Amazon-EMR-Versionen.
Hadoop:
- Transparente Verschlüsselung im Hadoop Distributed File System (HDFS)
- Uneinheitliches Speicherzugriffsbewusstsein für YARN-Container
- Hadoop-Versionshistorie: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von Hadoop und den installierten Komponenten in den Amazon EMR-Versionen.
HBase:
- HBase auf Amazon S3
- HBase-Read-Replica-Cluster
- HBase-Snapshots
- HBase-Versionshistorie: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von HBase und den installierten Komponenten in den Amazon-EMR-Versionen.
HCatalog:
- Integrationen mit Amazon-EMR-Versionen
- Verwenden des AWS-Glue-Datenkatalogs als Metastore für Apache Hive
- Versionshistorie von HCatalog: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von HCatalog und die installierten Komponenten in den Amazon EMR-Versionen.
Hive:
- ACID-Transaktionen und Amazon S3
- Hive Live Long and Process (LLAP)
- Verbessern der Hive-Leistung
- Starten von Hive EMR File System (EMRFS) S3 Optimized Committer
- Verwenden von S3 Select mit Hive zur Leistungssteigerung
- Optimierung des Metaspeicher-Prüfbefehls (MSCK)
- Hive-Versionshistorie: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von Hive und die installierten Komponenten in den Amazon EMR-Versionen.
Hudi:
- Integrationen mit Amazon-EMR-Versionen
- Hudi-Versionshistorie: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von Hudi und die installierten Komponenten in den Amazon-EMR-Versionen.
Iceberg:
- Integrationen mit Amazon-EMR-Versionen
- Versionshistorie von Iceberg: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von Iceberg und die installierten Komponenten in den Amazon-EMR-Versionen.
Presto und Trino:
- Integrationen mit Amazon-EMR-Versionen
- Verwenden von S3 Select Pushdown mit Presto zur Leistungsverbesserung
- Hinzufügen von Datenbankkonnektoren
- Aktivieren des Presto-Strict-Modus
- Exchange-Manager
- Verwenden der automatischen Skalierung von Presto mit Graceful Decommission
- Presto-Versionshistorie und Trino-Versionshinweise: Bevor Sie sich für ein Upgrade von Amazon EMR entscheiden, überprüfen Sie die Version von Presto oder Trino und die installierten Komponenten in den Amazon-EMR-Versionen.
Planen von Amazon-EMR-Versionsupgrades
Gehen Sie wie folgt vor, um sich auf ein Amazon-EMR-Versionsupgrade vorzubereiten:
- Informieren Sie sich über die Probleme, mit denen Sie in Ihrer aktuellen Amazon-EMR-Version konfrontiert sind.
- Isolieren Sie eine kleine Teilmenge von Anwendungen oder Abfragen, mit denen Sie die Leistung Ihres EMR-Clusters testen möchten.
- Richten Sie eine A/B-Teststrategie ein, um die Amazon-EMR-Version zu finden, die für Ihre Lösung am besten geeignet ist. Beim A/B-Test für Amazon EMR testen Sie zwei verschiedene Versionen des Dienstes, um zu vergleichen, wie sie in Ihrer Umgebung abschneiden.
- Migrieren Sie den Workload schrittweise auf die neue Version von Amazon EMR. Wenn Sie größere Probleme mit der Produktionsversion von Amazon EMR feststellen, können Sie den Migrationsprozess hier beenden.
- Beenden Sie nach Abschluss der Migration den alten Amazon-EMR-Cluster.
Beheben von Problemen im Zusammenhang mit Amazon-EMR-Versionsupgrades
Gehen Sie wie folgt vor, um Probleme zu beheben, die beim Upgrade Ihrer Amazon-EMR-Version auftreten:
- Konfigurieren Sie die Anwendung neu. Beobachten Sie, ob die Änderungen die Leistung Ihrer Anwendung verbessern.
- Prüfen Sie, ob Probleme durch eine neuere Version der Anwendung behoben wurden.
- Ändern Sie die Anwendung oder die Abfragen, um festzustellen, ob Sie Probleme vermeiden können.
- Überprüfen Sie offene Fehler und Behelfslösungen, um die Anwendung zu verbessern. Wenden Sie sich an den AWS Premium Support, um herauszufinden, ob es eine Problemumgehung gibt.
- Stoppen Sie die Amazon-EMR-Migration, bis das Problem behoben ist oder ein Workaround besteht.
Überlegungen zu Amazon-EMR-Versionsupgrades
Wenn Sie Ihre Version von Amazon EMR aktualisieren, kann eine Leistungsregression zu Problemen führen. Upgrades können die API ändern, was sich auf die Fähigkeit Ihres Codes auswirken kann, auf einer neueren Schnittstelle ausgeführt zu werden. Nach einem Upgrade der Amazon-EMR-Version können Langsamkeit und Ausfälle der Anwendung auftreten.
Wenn Sie darüber nachdenken, Ihre Version von Amazon EMR zu aktualisieren, empfiehlt es sich, den Abschnitt Was ist neu? Abschnitt des Release-Guides. Der Abschnitt Was ist neu? enthält Informationen zu den Releaseversionen und -daten von Amazon EMR sowie Lösungen für häufig auftretende Probleme mit Open-Source-Anwendungen.
Erforschen von Änderungen und offene Fragen von Open-Source-Anwendungen
Lesen Sie die folgenden Versionshinweise und offene Fehler, bevor Sie sich für eine Migration auf eine neue Amazon-EMR-Version entscheiden. Die folgende Liste von Anwendungen basiert auf Amazon-EMR-Version 6.9.
Hinweis: Diese Hyperlinks führen Sie zu den Anwendungswebsites von Drittanbietern, GitHub oder der Apache-Website.
- Versionshinweise zu Flink unter Upgrade von Flink und Problemverfolgung
- Versionshinweise und Problemverfolgung von Ganglia
- Versionshinweise und Problemverfolgung von Hadoop
- Versionshinweise und Problemverfolgung von HBase
- Versionshinweise und Problemverfolgung von HCatalog
- Versionshinweise und Problemverfolgung von Hive
- Versionshinweise und Problemverfolgung von Hue
- Versionshinweise und Problemverfolgung für JupyterEnterpriseGateway
- Versionshinweise und Problemverfolgung von JupyterHub
- Versionshinweise und Problemverfolgung von Livy
- Versionshinweise und Problemverfolgung von MXNet
- Versionshinweise und Problemverfolgung von Oozie
- Versionshinweise und Problemverfolgung von Phoenix
- Versionshinweise und Problemverfolgung für Pig
- Versionshinweise und Problemverfolgung von Presto
- Versionshinweise und Problemverfolgung von Spark
- Versionshinweise unter Versionen und Problemverfolgung von Sqoop
- Versionshinweise und Problemverfolgung von TensorFlow
- Versionshinweise und Problemverfolgung von Tez
- Versionshinweise und Problemverfolgung von Trino
- Versionshinweise und Problemverfolgung von Zeppelin
- Versionshinweise und Problemverfolgung von ZooKeeper
Relevanter Inhalt
- AWS OFFICIALAktualisiert vor 3 Jahren
- AWS OFFICIALAktualisiert vor 4 Jahren
- AWS OFFICIALAktualisiert vor 2 Jahren
- AWS OFFICIALAktualisiert vor 2 Jahren