Help us improve the AWS re:Post Knowledge Center by sharing your feedback in a brief survey. Your input can influence how we create and update our content to better support your AWS journey.
升級 Amazon EMR 叢集時,我可以採取哪些規劃步驟?
我需要規劃 Amazon EMR 升級,以跟上快速變化的技術步伐。
簡短描述
為了跟上大數據的快速變化,您必須升級 Amazon EMR 版本。移轉至新版 Amazon EMR 可改善卓越營運和工作負載的有效性。但是,在升級 Amazon EMR 之前,您必須進行規劃和準備。您必須檢閱某些資訊,以及必須遵循程序。
Amazon EMR 版本升級的優點
升級 Amazon EMR 的優點包括:
- 利用最新功能提高生產力並降低成本。
- 更新的應用程式執行更快速。
- 最新的錯誤修正提供穩定的基礎架構。
- 最新的安全修補程式可強化安全。
- 開放原始碼軟體功能的最新存取權。
例如,使用 Amazon EMR 6.6 版和更新版本,Log4j 1.x 和 Log4j 2.x 分別會升級為 Log4j 1.2.17 和 Log4j 2.17.1 (或更高版本)。在更高版本中,不需要啟動動作來緩解通用漏洞披露 (CVE)。
解決方案
適用於開放原始碼應用程式的 Amazon EMR 效能最佳化功能
Amazon EMR 為許多開放原始碼應用程式提供效能最佳化功能。
Spark:
- 調適型查詢執行
- 動態分割剪除
- 扁平化 Scalar 子查詢
- INTERSECT 前面的 DISTINCT
- Bloom 篩選條件加入
- 最佳化加入重新排序
- 使用 Amazon Simple Storage Service (Amazon S3) 改善 Spark 效能
- Spark 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Spark 的版本及其在 Amazon EMR 版本中已安裝的元件。
Delta Lake:
- 搭配 Spark 使用 Delta Lake 叢集
- 搭配 Trino 使用 Delta Lake 叢集
- Delta 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Delta Lake 的版本及其在 Amazon EMR 版本中已安裝的元件。
Flink:
- 支援做為 YARN 應用程式的 Flink
- Flink 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Flink 的版本及其在 Amazon EMR 版本中已安裝的元件。
Hadoop:
- Hadoop 分散式檔案系統 (HDFS) 中的透明加密
- YARN 容器的非統一記憶體存取感知
- Hadoop 版本歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Hadoop 的版本及其在 Amazon EMR 版本中已安裝的元件。
HBase:
- Amazon S3 上的 HBase
- HBase 讀取範本叢集
- HBase 快照
- HBase 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 HBase 的版本及其在 Amazon EMR 版本中已安裝的元件。
HCatalog:
- 與 Amazon EMR 發行整合
- 使用 AWS Glue Data Catalog 做為 Apache Hive 的中繼存放區
- HCatalog 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 HCatalog 的版本及其在 Amazon EMR 版本中已安裝的元件。
Hive:
- ACID 交易和 Amazon S3
- Hive Live Long and Process (LLAP)
- 改善 Hive 效能
- 啟動 Hive EMR 檔案系統 (EMRFS) S3 最佳化提交程式
- 搭配 Hive 使用 S3 Select 以提升效能
- 中繼存放區檢查命令 (MSCK) 最佳化
- Hive 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Hive 的版本及其在 Amazon EMR 版本中已安裝的元件。
Hudi:
- 與 Amazon EMR 發行整合
- Hudi 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Hudi 的版本及其在 Amazon EMR 版本中已安裝的元件。
Iceberg:
- 與 Amazon EMR 發行整合
- Iceberg 發行歷史記錄:在決定升級 Amazon EMR 之前,請檢查 Iceberg 的版本及其在 Amazon EMR 版本中已安裝的元件。
Presto 和 Trino:
- 與 Amazon EMR 發行整合
- 使用 S3 Select Pushdown 和 Presto 以改善效能
- 新增資料庫連接器
- 啟動 Presto 嚴格模式
- 交易管理員
- 使用 Presto 自動擴展與正常解除委任
- Iceberg 發行歷史記錄和 Trino 版本備註:在決定升級 Amazon EMR 之前,請檢查 Presto 或 Trino 的版本及其在 Amazon EMR 版本中已安裝的元件。
規劃 Amazon EMR 版本升級
請依照下列步驟準備 Amazon EMR 版本升級:
- 研究您在目前 Amazon EMR 版本中面臨的問題。
- 隔離您要用來測試 EMR 叢集效能的一小部分應用程式或查詢。
- 設定 A/B 測試策略,決定最適合您解決方案的 Amazon EMR 版本。在 Amazon EMR 的 A/B 測試中,您可以測試兩個不同版本的服務,以比較它們在環境中的效能。
- 逐步將工作負載移轉到新版本的 Amazon EMR。如果您在 Amazon EMR 的生產版本上發現重大問題,可以在此處結束移轉程序。
- 移轉完成之後,請終止舊的 Amazon EMR 叢集。
修正與 Amazon EMR 版本升級相關的問題
請依照下列步驟修正升級 Amazon EMR 版本時遇到的問題:
- 重新設定應用程式。觀察變更是否會改善應用程式的效能。
- 檢查問題是否已由較新版本的應用程式解決。
- 變更應用程式或查詢,看看是否可以避免問題。
- 檢查開放缺陷和因應措施,以改善應用程式。請聯絡 AWS Premium Support,了解是否有因應措施。
- 停止 Amazon EMR 移轉,直到問題解決或有因應措施為止。
Amazon EMR 版本升級的考量
升級 Amazon EMR 版本時,效能迴歸可能會造成問題。升級可能會變更 API,這可能會影響程式碼在較新介面上執行的能力。Amazon EMR 版本升級之後,可能會發生應用程式緩慢和失敗。
當您考慮升級 Amazon EMR 版本時,最佳實務是閱讀版本指南的最新消息?一節。最新消息?一節包括 Amazon EMR 發行版本和日期的相關資訊,以及開放原始碼應用程式常見問題的解決方案。
研究開放原始碼應用程式變更和未解決問題
在決定移轉至新的 Amazon EMR 版本之前,請檢查下列版本備註和開放瑕疵。下列應用程式清單是以 Amazon EMR 6.9 版為基礎。
**注意:**這些超連結會帶您前往第三方應用程式網站、GitHub 或 Apache 網站。
- 升級 Flink 底下的 Flink 版本備註和問題追蹤
- Ganglia 版本備註和問題追蹤
- Hadoop 版本備註和問題追蹤
- HBase 版本備註和問題追蹤
- HCatalog 版本備註和問題追蹤
- Hive 版本備註和問題追蹤
- Hue 版本備註和問題追蹤
- JupyterEnterpriseGateway 版本備註和問題追蹤
- JupyterHub 版本備註和問題追蹤
- Livy 版本備註和問題追蹤
- MXNet 版本備註和問題追蹤
- Oozie 版本備註和問題追蹤
- Phoenix 版本備註和問題追蹤
- Pig 版本備註和問題追蹤
- Presto 版本備註和問題追蹤
- Spark 版本備註和問題追蹤
- 發行底下的 Sqoop 版本備註和問題追蹤
- TensorFlow 版本備註和問題追蹤
- Tez 版本備註和問題追蹤
- Trino 版本備註和問題追蹤
- Zeppelin 版本備註和問題追蹤
- ZooKeeper 版本備註和問題追蹤
- 語言
- 中文 (繁體)

相關內容
- 已提問 1 年前
AWS 官方已更新 6 個月前