升級 Amazon EMR 叢集時,我可以採取哪些規劃步驟?
我需要規劃 Amazon EMR 升級,以跟上快速變化的技術步伐。
簡短描述
為了跟上大數據的快速變化,您必須升級 Amazon EMR 版本。移轉至新版 Amazon EMR 可改善卓越營運和工作負載的有效性。但是,在升級 Amazon EMR 之前,您必須進行規劃和準備。您必須檢閱某些資訊,以及必須遵循程序。
Amazon EMR 版本升級的優點
升級 Amazon EMR 的優點包括:
- 利用最新功能提高生產力並降低成本。
- 更新的應用程式執行更快速。
- 最新的錯誤修正提供穩定的基礎架構。
- 最新的安全修補程式可強化安全。
- 開放原始碼軟體功能的最新存取權。
例如,使用 Amazon EMR 6.6 版和更新版本,Log4j 1.x 和 Log4j 2.x 分別會升級為 Log4j 1.2.17 和 Log4j 2.17.1 (或更高版本)。在更高版本中,不需要啟動動作來緩解通用漏洞披露 (CVE)。
解決方案
適用於開放原始碼應用程式的 Amazon EMR 效能最佳化功能
Amazon EMR 為許多開放原始碼應用程式提供效能最佳化功能。
Spark:
- 調適型查詢執行
- 動態分割剪除
- 扁平化 Scalar 子查詢
- INTERSECT 前面的 DISTINCT
- Bloom 篩選條件加入
- 最佳化加入重新排序
- 使用 Amazon Simple Storage Service (Amazon S3) 改善 Spark 效能
- Spark 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Spark 的版本及其在 Amazon EMR 版本中已安裝的元件。
Delta Lake:
- 搭配 Spark 使用 Delta Lake 叢集
- 搭配 Trino 使用 Delta Lake 叢集
- Delta 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Delta Lake 的版本及其在 Amazon EMR 版本中已安裝的元件。
Flink:
- 支援做為 YARN 應用程式的 Flink
- Flink 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Flink 的版本及其在 Amazon EMR 版本中已安裝的元件。
Hadoop:
- Hadoop 分散式檔案系統 (HDFS) 中的透明加密
- YARN 容器的非統一記憶體存取感知
- Hadoop 版本歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Hadoop 的版本及其在 Amazon EMR 版本中已安裝的元件。
HBase:
- Amazon S3 上的 HBase
- HBase 讀取範本叢集
- HBase 快照
- HBase 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 HBase 的版本及其在 Amazon EMR 版本中已安裝的元件。
HCatalog:
- 與 Amazon EMR 發行整合
- 使用 AWS Glue Data Catalog 做為 Apache Hive 的中繼存放區
- HCatalog 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 HCatalog 的版本及其在 Amazon EMR 版本中已安裝的元件。
Hive:
- ACID 交易和 Amazon S3
- Hive Live Long and Process (LLAP)
- 改善 Hive 效能
- 啟動 Hive EMR 檔案系統 (EMRFS) S3 最佳化提交程式
- 搭配 Hive 使用 S3 Select 以提升效能
- 中繼存放區檢查命令 (MSCK) 最佳化
- Hive 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Hive 的版本及其在 Amazon EMR 版本中已安裝的元件。
Hudi:
- 與 Amazon EMR 發行整合
- Hudi 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Hudi 的版本及其在 Amazon EMR 版本中已安裝的元件。
Iceberg:
- 與 Amazon EMR 發行整合
- Iceberg 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Iceberg 的版本及其在 Amazon EMR 版本中已安裝的元件。
Presto 和 Trino:
- 與 Amazon EMR 發行整合
- 使用 S3 Select Pushdown 和 Presto 以改善效能
- 新增資料庫連接器
- 啟動 Presto 嚴格模式
- 交易管理員
- 使用 Presto 自動擴展與正常解除委任
- Iceberg 發行歷史記錄和 Trino 版本備註:在決定升級 Amazon EMR 之前,請檢查 Presto 或 Trino 的版本及其在 Amazon EMR 版本中已安裝的元件。
規劃 Amazon EMR 版本升級
請依照下列步驟準備 Amazon EMR 版本升級:
- 研究您在目前 Amazon EMR 版本中面臨的問題。
- 隔離您要用來測試 EMR 叢集效能的一小部分應用程式或查詢。
- 設定 A/B 測試策略,決定最適合您解決方案的 Amazon EMR 版本。在 Amazon EMR 的 A/B 測試中,您可以測試兩個不同版本的服務,以比較它們在環境中的效能。
- 逐步將工作負載移轉到新版本的 Amazon EMR。如果您在 Amazon EMR 的生產版本上發現重大問題,可以在此處結束移轉程序。
- 移轉完成之後,請終止舊的 Amazon EMR 叢集。
修正與 Amazon EMR 版本升級相關的問題
請依照下列步驟修正升級 Amazon EMR 版本時遇到的問題:
- 重新設定應用程式。觀察變更是否會改善應用程式的效能。
- 檢查問題是否已由較新版本的應用程式解決。
- 變更應用程式或查詢,看看是否可以避免問題。
- 檢查開放缺陷和因應措施,以改善應用程式。請聯絡 AWS Premium Support,了解是否有因應措施。
- 停止 Amazon EMR 移轉,直到問題解決或有因應措施為止。
Amazon EMR 版本升級的考量
升級 Amazon EMR 版本時,效能迴歸可能會造成問題。升級可能會變更 API,這可能會影響程式碼在較新介面上執行的能力。Amazon EMR 版本升級之後,可能會發生應用程式緩慢和失敗。
當您考慮升級 Amazon EMR 版本時,最佳實務是閱讀版本指南的最新消息?一節。最新消息?一節包括 Amazon EMR 發行版本和日期的相關資訊,以及開放原始碼應用程式常見問題的解決方案。
研究開放原始碼應用程式變更和未解決問題
在決定移轉至新的 Amazon EMR 版本之前,請檢查下列版本備註和開放瑕疵。下列應用程式清單是以 Amazon EMR 6.9 版為基礎。
**注意:**這些超連結會帶您前往第三方應用程式網站、GitHub 或 Apache 網站。
- 升級 Flink 底下的 Flink 版本備註和問題追蹤
- Ganglia 版本備註和問題追蹤
- Hadoop 版本備註和問題追蹤
- HBase 版本備註和問題追蹤
- HCatalog 版本備註和問題追蹤
- Hive 版本備註和問題追蹤
- Hue 版本備註和問題追蹤
- JupyterEnterpriseGateway 版本備註和問題追蹤
- JupyterHub 版本備註和問題追蹤
- Livy 版本備註和問題追蹤
- MXNet 版本備註和問題追蹤
- Oozie 版本備註和問題追蹤
- Phoenix 版本備註和問題追蹤
- Pig 版本備註和問題追蹤
- Presto 版本備註和問題追蹤
- Spark 版本備註和問題追蹤
- 發行底下的 Sqoop 版本備註和問題追蹤
- TensorFlow 版本備註和問題追蹤
- Tez 版本備註和問題追蹤
- Trino 版本備註和問題追蹤
- Zeppelin 版本備註和問題追蹤
- ZooKeeper 版本備註和問題追蹤
相關內容
- 已提問 4 個月前lg...
- 已提問 2 個月前lg...
- 已提問 2 年前lg...
- 已提問 2 個月前lg...
- AWS 官方已更新 2 年前
- AWS 官方已更新 3 年前