Help us improve the AWS re:Post Knowledge Center by sharing your feedback in a brief survey. Your input can influence how we create and update our content to better support your AWS journey.
升级 Amazon EMR 集群时我可以采取哪些计划步骤?
我需要计划 Amazon EMR 升级,以跟上技术的快速发展。
简短描述
为了跟上大数据的快速变化,您必须升级 Amazon EMR 版本。迁移到 Amazon EMR 新版本可以促进工作负载的卓越运营并提高效率。但是,在升级 Amazon EMR 之前,您必须做好计划和准备。您必须查看某些信息,也必须遵循某些程序。
Amazon EMR 版本升级的优势
升级 Amazon EMR 的优势包括:
- 利用最新功能,提高生产效率并降低成本。
- 升级后的应用程序运行得更快。
- 最新的漏洞修复提供了稳定的基础设施。
- 最新的安全补丁增强了安全性。
- 具有对开源软件功能的最新访问权限。
例如,在 Amazon EMR 版本 6.6 及更高版本中,Log4j 1.x 和 Log4j 2.x 分别升级到 Log4j 1.2.17 和 Log4j 2.17.1(或更高版本)。在更高版本中,不需要通过引导操作来缓解常见漏洞和风险(CVE)。
解决方法
适用于开源应用程序的 Amazon EMR 性能优化功能
Amazon EMR 为许多开源应用程序提供性能优化功能。
Spark:
- 自适应查询执行
- 动态分区修剪
- 合并标量子查询
- 先 DISTINCT 后 INTERSECT
- Bloom 筛选条件联接
- 优化了联接记录器
- 使用 Amazon Simple Storage Service(Amazon S3)提高了 Spark 性能
- Spark 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Spark 及其在 Amazon EMR 版本中安装的组件的版本。
Delta Lake:
- 将 Delta Lake 集群与 Spark 结合使用
- 将 Delta Lake 集群与 Trino 结合使用
- Delta 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Delta Lake 及其在 Amazon EMR 版本中安装的组件的版本。
Flink:
- 支持 Flink 作为 YARN 应用程序
- Flink 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Flink 及其在 Amazon EMR 版本中安装的组件的版本。
Hadoop:
- Hadoop Distributed File System(HDFS)中的透明加密
- YARN 容器的非统一内存访问感知
- Hadoop 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Hadoop 及其在 Amazon EMR 版本中安装的组件的版本。
HBase:
- Amazon S3 上的 HBase
- HBase 只读副本集群
- HBase 快照
- HBase 版本历史记录:在决定升级 Amazon EMR 之前,请检查 HBase 及其在 Amazon EMR 版本中安装的组件的版本。
HCatalog:
- 与 Amazon EMR 版本集成
- 使用 AWS Glue Data Catalog 作为 Apache Hive 的元存储
- HCatalog 版本历史记录:在决定升级 Amazon EMR 之前,请检查 HCatalog 及其在 Amazon EMR 版本中安装的组件的版本。
Hive:
- ACID 事务和 Amazon S3
- Hive Live Long and Process(LLAP)
- 提高 Hive 性能
- 启动 Hive EMR File System(EMRFS)S3 优化型提交程序
- 将 Hive 与 S3 Select 结合使用来提高性能
- 元存储检查命令(MSCK)优化
- Hive 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Hive 及其在 Amazon EMR 版本中安装的组件的版本。
Hudi:
- 与 Amazon EMR 版本集成
- Hudi 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Hudi 及其在 Amazon EMR 版本中安装的组件的版本。
Iceberg:
- 与 Amazon EMR 版本集成
- Iceberg 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Iceberg 及其在 Amazon EMR 版本中安装的组件的版本。
Presto 和 Trino:
- 与 Amazon EMR 版本集成
- 将 Presto 与 S3 Select Pushdown 结合使用来提高性能
- 添加数据库连接器
- 激活 Presto 严格模式
- Exchange Manager
- 将 Presto 自动扩展与 Graceful Decommission 结合使用
- Presto 版本历史记录和 Trino 发行说明:在决定升级 Amazon EMR 之前,请检查 Presto 或 Trino 及其在 Amazon EMR 版本中安装的组件的版本。
规划 Amazon EMR 版本升级
请按照以下步骤准备进行 Amazon EMR 版本升级:
- 研究您在当前 Amazon EMR 版本中面临的问题。
- 隔离一小部分要用于测试 EMR 集群性能的应用程序或查询。
- 设置 A/B 测试策略,以确定最适合您的解决方案的 Amazon EMR 版本。在 Amazon EMR 的 A/B 测试中,您将测试两个不同版本的服务,以比较两者在环境中的性能。
- 逐步将工作负载迁移到 Amazon EMR 新版本。如果您发现 Amazon EMR 的生产版本存在重大问题,可以在此处结束迁移过程。
- 迁移完成后,终止旧的 Amazon EMR 集群。
修复与 Amazon EMR 版本升级相关的问题
请按照以下步骤修复您在升级 Amazon EMR 版本时遇到的问题:
- 重新配置应用程序。观察这些更改是否提高了应用程序的性能。
- 检查应用程序的更新版本是否解决了问题。
- 更改应用程序或查询,看看能否避免问题。
- 检查未解决的缺陷并找到解决方法以改进应用程序。联系 AWS Premium Support,了解是否有解决方法。
- 停止 Amazon EMR 迁移,直到问题得到解决或找到解决方法。
Amazon EMR 版本升级注意事项
当您升级 Amazon EMR 版本时,性能回归可能会导致问题。升级可能会更改 API,这可能会影响您的代码在新界面上运行的能力。Amazon EMR 版本升级后可能会出现应用程序运行缓慢和故障的问题。
在考虑升级 Amazon EMR 版本时,最佳做法是阅读版本指南的有何新增内容?部分。有何新增内容?部分包含有关 Amazon EMR 发行版本和日期的信息,以及开源应用程序常见问题的解决方案。
研究开源应用程序的变化和突出问题
在决定迁移到 Amazon EMR 新版本之前,请查看以下发行说明和未解决的缺陷。以下应用程序列表基于 Amazon EMR 版本 6.9。
**注意:**您可以通过这些超链接访问第三方应用程序网站、GitHub 或 Apache 网站。
- 升级 Flink 下的 Flink 发行说明和问题跟踪
- Ganglia 发行说明和问题跟踪
- Hadoop 发行说明和问题跟踪
- HBase 发行说明和问题跟踪
- HCatalog 发行说明和问题跟踪
- Hive 发行说明和问题跟踪
- Hue 发行说明和问题跟踪
- JupyterEnterpriseGateway 发行说明和问题跟踪
- JupyterHub 发行说明和问题跟踪
- Livy 发行说明和问题跟踪
- MXNet 发行说明和问题跟踪
- Oozie 发行说明和问题跟踪
- Phoenix 发行说明和问题跟踪
- Pig 发行说明和问题跟踪
- Presto 发行说明和问题跟踪
- Spark 发行说明和问题跟踪
- 发行下的 Sqoop 发行说明和问题跟踪
- TensorFlow 发行说明和问题跟踪
- Tez 发行说明和问题跟踪
- Trino 发行说明和问题跟踪
- Zeppelin 发行说明和问题跟踪
- ZooKeeper 发行说明和问题跟踪
- 语言
- 中文 (简体)

相关内容
AWS 官方已更新 5 个月前