Quali passaggi di pianificazione posso eseguire per aggiornare il mio cluster Amazon EMR?
Devo pianificare un aggiornamento di Amazon EMR per stare al passo con una tecnologia in rapida evoluzione.
Breve descrizione
Per stare al passo con i rapidi cambiamenti nei big data, devi aggiornare la tua versione di Amazon EMR. La migrazione a una nuova versione di Amazon EMR migliora l'eccellenza operativa e l'efficacia del carico di lavoro. Tuttavia, prima di effettuare l'aggiornamento di Amazon EMR, devi pianificare e prepararti. Ci sono informazioni che devi esaminare e procedure da seguire.
Vantaggi degli aggiornamenti della versione di Amazon EMR
I vantaggi dell'aggiornamento di Amazon EMR includono:
- Maggiore produttività e riduzione dei costi sfruttando le funzionalità più recenti.
- Le applicazioni aggiornate vengono eseguite più velocemente.
- Le correzioni di bug aggiornate forniscono un'infrastruttura stabile.
- Le ultime patch di sicurezza rafforzano la sicurezza.
- Accesso aggiornato alle funzionalità del software open source.
Ad esempio, con Amazon EMR versione 6.6 e successive, Log4j 1.x e Log4j 2.x vengono aggiornati rispettivamente a Log4j 1.2.17 e Log4j 2.17.1 (o versioni successive). Nelle versioni superiori, le azioni di bootstrap non sono necessarie per mitigare le vulnerabilità e le esposizioni comuni (CVE).
Risoluzione
Funzionalità di ottimizzazione delle prestazioni di Amazon EMR per applicazioni open source
Amazon EMR offre funzionalità di ottimizzazione delle prestazioni per molte applicazioni open source.
Spark:
- Esecuzione adattiva delle query
- Eliminazione dinamica delle partizioni
- Appiattimento delle sottoquery scalari
- DISTINCT prima di INTERSECT
- Aggiunta filtro Bloom
- Riordino ottimizzato di aggiunte
- Prestazioni Spark migliorate con Amazon Simple Storage Service (Amazon S3)
- Cronologia delle versioni di Spark: prima di decidere di aggiornare Amazon EMR, verifica la versione di Spark e i relativi componenti installati nelle versioni di Amazon EMR.
Lago Delta:
- Utilizzo di un cluster Delta Lake con Spark
- Utilizzo di un cluster Delta Lake con Trino
- Cronologia delle versioni di Delta: prima di decidere di aggiornare Amazon EMR, verifica la versione di Delta Lake e i relativi componenti installati nelle versioni di Amazon EMR.
Flink:
- Flink supportato come applicazione YARN
- Cronologia delle versioni di Flink: prima di decidere di aggiornare Amazon EMR, verifica la versione di Flink e i relativi componenti installati nelle versioni di Amazon EMR.
Hadoop:
- Crittografia trasparente in Hadoop Distributed File System (HDFS)
- Consapevolezza non uniforme dell'accesso alla memoria per i container YARN
- Cronologia delle versioni di Hadoop: prima di decidere di aggiornare Amazon EMR, verifica la versione di Hadoop e i relativi componenti installati nelle versioni di Amazon EMR.
HBase:
- HBase in Amazon S3
- Cluster di replica di lettura HBase
- Istantanee HBase
- Cronologia delle versioni di HBase: prima di decidere di aggiornare Amazon EMR, verifica la versione di HBase e i componenti installati nelle release di Amazon EMR.
HCatalog:
- Integrazioni con le versioni di Amazon EMR
- Utilizzo del catalogo dati AWS Glue come metastore per Apache Hive
- Cronologia delle versioni di HCatalog: prima di decidere di aggiornare Amazon EMR, verifica la versione di HCatalog e i relativi componenti installati nelle versioni di Amazon EMR.
Hive:
- Transazioni ACID e Amazon S3
- Hive Long and Process (LLAP)
- Migliora le prestazioni di Hive
- Avvia il committer ottimizzato Hive EMR File System (EMRFS) S3
- Utilizzo di S3 Select con Hive per migliorare le prestazioni
- Ottimizzazione del comando di verifica Metastore (MSCK)
- Cronologia delle versioni di Hive: prima di decidere di aggiornare Amazon EMR, verifica la versione di Hive e i relativi componenti installati nelle versioni di Amazon EMR.
Hudi:
- Integrazioni con le versioni di Amazon EMR
- Cronologia delle versioni di Hudi: prima di decidere di aggiornare Amazon EMR, verifica la versione di Hudi e i relativi componenti installati nelle versioni di Amazon EMR.
Iceberg:
- Integrazioni con le versioni di Amazon EMR
- Cronologia delle versioni di Iceberg: prima di decidere di aggiornare Amazon EMR, verifica la versione di Iceberg e i relativi componenti installati nelle versioni di Amazon EMR.
Presto e Trino:
- Integrazioni con le versioni di Amazon EMR
- Utilizzo di S3 Select Pushdown con Presto per migliorare le prestazioni
- Aggiungere connettori al database
- Attivazione della modalità rigorosa di Presto
- Exchange Manager
- Utilizzo del ridimensionamento automatico di Presto con Graceful Decommission
- Cronologia delle versioni di Presto e note sulle versioni di Trino: prima di decidere di aggiornare Amazon EMR, verifica la versione di Presto o Trino e i relativi componenti installati nelle versioni di Amazon EMR.
Pianificazione degli aggiornamenti delle versioni di Amazon EMR
Segui questi passaggi per prepararti all'aggiornamento della versione di Amazon EMR:
- Ricerca i problemi che stai riscontrando nella tua attuale versione di Amazon EMR.
- Isola un piccolo sottoinsieme di applicazioni o query che desideri utilizzare per testare le prestazioni del tuo cluster EMR.
- Configura una strategia di test A/B per decidere la versione di Amazon EMR più adatta alla tua soluzione. Nei test A/B per Amazon EMR, testate due diverse versioni del servizio per confrontarne le prestazioni nel tuo ambiente.
- Migra gradualmente il carico di lavoro alla nuova versione di Amazon EMR. Se riscontri problemi importanti nella versione di produzione di Amazon EMR, puoi terminare il processo di migrazione qui.
- Una volta completata la migrazione, termina il vecchio cluster Amazon EMR.
Risoluzione dei problemi relativi agli aggiornamenti delle versioni di Amazon EMR
Segui questi passaggi per risolvere i problemi che riscontri durante l'aggiornamento della tua versione di Amazon EMR:
- Riconfigura l'applicazione. Osserva se le modifiche migliorano o meno le prestazioni dell'applicazione.
- Verifica se i problemi sono stati risolti da una versione più recente dell'applicazione.
- Cambia l'applicazione o le query per vedere se puoi evitare problemi.
- Verifica i difetti aperti e le soluzioni alternative per migliorare l'applicazione. Contatta AWS Premium Support per scoprire se esiste una soluzione alternativa.
- Arresta la migrazione ad Amazon EMR finché il problema non viene risolto o non esiste una soluzione alternativa.
Considerazioni per gli aggiornamenti delle versioni di Amazon EMR
Quando aggiorni la tua versione di Amazon EMR, la regressione delle prestazioni potrebbe causare problemi. Gli aggiornamenti potrebbero modificare l'API, il che potrebbe influire sulla capacità del codice di essere eseguito su un'interfaccia più recente. Potrebbero verificarsi rallentamenti ed errori delle applicazioni dopo un aggiornamento della versione di Amazon EMR.
Se stai pensando di aggiornare la tua versione di Amazon EMR, è consigliabile leggere la sezione Cosa c'è di nuovo? della guida alla versione. La sezione Cosa c'è di nuovo? include informazioni sulle versioni e le date di rilascio di Amazon EMR, insieme alle soluzioni ai problemi più comuni con le applicazioni open source.
Ricerca le modifiche alle applicazioni open source e i problemi in sospeso
Verifica le seguenti note sulla versione e i difetti aperti prima di decidere di migrare a una nuova versione di Amazon EMR. Il seguente elenco di applicazioni si basa sulla versione 6.9 di Amazon EMR.
Nota: questi collegamenti ipertestuali portano ai siti Web delle applicazioni di terze parti, a GitHub o al sito Web di Apache.
- Note sulla versione di Flink in Aggiorna Flink e gestione dei problemi
- Note sulla versione di Ganglia e gestione dei problemi
- Note sulla versione di Hadoop e gestione dei problemi
- Note sulla versione di HBase e gestione dei problemi
- Note sulla versione di HCatalog e gestione dei problemi
- Note sulla versione di Hive e gestione dei problemi
- Note sulla versione di Hue e gestione dei problemi
- Note sulla versione di JupyterEnterpriseGateway e gestione dei problemi
- Note sulla versione di JupyterHub e gestione dei problemi
- Note sulla versione di Livy e gestione dei problemi
- Note sulla versione di MXNet e gestione dei problemi
- Note sulla versione di Oozie e gestione dei problemi
- Note sulla versione di Phoenix e gestione dei problemi
- Note sulla versione di Pig e gestione dei problemi
- Note sulla versione di Presto e gestione dei problemi
- Note sulla versione di Spark e gestione dei problemi
- Note sulla versione di Sqoop in Versioni e gestione dei problemi
- Note sulla versione di TensorFlow e gestione dei problemi
- Note sulla versione di Tez e gestione dei problemi
- Note sulla versione di Trino e gestione dei problemi
- Note sulla versione di Zeppelin e gestione dei problemi
- Note sulla versione di ZooKeeper e gestione dei problemi
Contenuto pertinente
- AWS UFFICIALEAggiornata 2 anni fa
- AWS UFFICIALEAggiornata 2 anni fa
- AWS UFFICIALEAggiornata 2 anni fa
- AWS UFFICIALEAggiornata 2 anni fa