升级 Amazon EMR 集群时我可以采取哪些计划步骤?
我需要计划 Amazon EMR 升级,以跟上技术的快速发展。
简短描述
为了跟上大数据的快速变化,您必须升级 Amazon EMR 版本。迁移到 Amazon EMR 新版本可以促进工作负载的卓越运营并提高效率。但是,在升级 Amazon EMR 之前,您必须做好计划和准备。您必须查看某些信息,也必须遵循某些程序。
Amazon EMR 版本升级的优势
升级 Amazon EMR 的优势包括:
- 利用最新功能,提高生产效率并降低成本。
- 升级后的应用程序运行得更快。
- 最新的漏洞修复提供了稳定的基础设施。
- 最新的安全补丁增强了安全性。
- 具有对开源软件功能的最新访问权限。
例如,在 Amazon EMR 版本 6.6 及更高版本中,Log4j 1.x 和 Log4j 2.x 分别升级到 Log4j 1.2.17 和 Log4j 2.17.1(或更高版本)。在更高版本中,不需要通过引导操作来缓解常见漏洞和风险(CVE)。
解决方法
适用于开源应用程序的 Amazon EMR 性能优化功能
Amazon EMR 为许多开源应用程序提供性能优化功能。
Spark:
- 自适应查询执行
- 动态分区修剪
- 合并标量子查询
- 先 DISTINCT 后 INTERSECT
- Bloom 筛选条件联接
- 优化了联接记录器
- 使用 Amazon Simple Storage Service(Amazon S3)提高了 Spark 性能
- Spark 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Spark 及其在 Amazon EMR 版本中安装的组件的版本。
Delta Lake:
- 将 Delta Lake 集群与 Spark 结合使用
- 将 Delta Lake 集群与 Trino 结合使用
- Delta 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Delta Lake 及其在 Amazon EMR 版本中安装的组件的版本。
Flink:
- 支持 Flink 作为 YARN 应用程序
- Flink 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Flink 及其在 Amazon EMR 版本中安装的组件的版本。
Hadoop:
- Hadoop Distributed File System(HDFS)中的透明加密
- YARN 容器的非统一内存访问感知
- Hadoop 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Hadoop 及其在 Amazon EMR 版本中安装的组件的版本。
HBase:
- Amazon S3 上的 HBase
- HBase 只读副本集群
- HBase 快照
- HBase 版本历史记录:在决定升级 Amazon EMR 之前,请检查 HBase 及其在 Amazon EMR 版本中安装的组件的版本。
HCatalog:
- 与 Amazon EMR 版本集成
- 使用 AWS Glue Data Catalog 作为 Apache Hive 的元存储
- HCatalog 版本历史记录:在决定升级 Amazon EMR 之前,请检查 HCatalog 及其在 Amazon EMR 版本中安装的组件的版本。
Hive:
- ACID 事务和 Amazon S3
- Hive Live Long and Process(LLAP)
- 提高 Hive 性能
- 启动 Hive EMR File System(EMRFS)S3 优化型提交程序
- 将 Hive 与 S3 Select 结合使用来提高性能
- 元存储检查命令(MSCK)优化
- Hive 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Hive 及其在 Amazon EMR 版本中安装的组件的版本。
Hudi:
- 与 Amazon EMR 版本集成
- Hudi 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Hudi 及其在 Amazon EMR 版本中安装的组件的版本。
Iceberg:
- 与 Amazon EMR 版本集成
- Iceberg 版本历史记录:在决定升级 Amazon EMR 之前,请检查 Iceberg 及其在 Amazon EMR 版本中安装的组件的版本。
Presto 和 Trino:
- 与 Amazon EMR 版本集成
- 将 Presto 与 S3 Select Pushdown 结合使用来提高性能
- 添加数据库连接器
- 激活 Presto 严格模式
- Exchange Manager
- 将 Presto 自动扩展与 Graceful Decommission 结合使用
- Presto 版本历史记录和 Trino 发行说明:在决定升级 Amazon EMR 之前,请检查 Presto 或 Trino 及其在 Amazon EMR 版本中安装的组件的版本。
规划 Amazon EMR 版本升级
请按照以下步骤准备进行 Amazon EMR 版本升级:
- 研究您在当前 Amazon EMR 版本中面临的问题。
- 隔离一小部分要用于测试 EMR 集群性能的应用程序或查询。
- 设置 A/B 测试策略,以确定最适合您的解决方案的 Amazon EMR 版本。在 Amazon EMR 的 A/B 测试中,您将测试两个不同版本的服务,以比较两者在环境中的性能。
- 逐步将工作负载迁移到 Amazon EMR 新版本。如果您发现 Amazon EMR 的生产版本存在重大问题,可以在此处结束迁移过程。
- 迁移完成后,终止旧的 Amazon EMR 集群。
修复与 Amazon EMR 版本升级相关的问题
请按照以下步骤修复您在升级 Amazon EMR 版本时遇到的问题:
- 重新配置应用程序。观察这些更改是否提高了应用程序的性能。
- 检查应用程序的更新版本是否解决了问题。
- 更改应用程序或查询,看看能否避免问题。
- 检查未解决的缺陷并找到解决方法以改进应用程序。联系 AWS Premium Support,了解是否有解决方法。
- 停止 Amazon EMR 迁移,直到问题得到解决或找到解决方法。
Amazon EMR 版本升级注意事项
当您升级 Amazon EMR 版本时,性能回归可能会导致问题。升级可能会更改 API,这可能会影响您的代码在新界面上运行的能力。Amazon EMR 版本升级后可能会出现应用程序运行缓慢和故障的问题。
在考虑升级 Amazon EMR 版本时,最佳做法是阅读版本指南的有何新增内容?部分。有何新增内容?部分包含有关 Amazon EMR 发行版本和日期的信息,以及开源应用程序常见问题的解决方案。
研究开源应用程序的变化和突出问题
在决定迁移到 Amazon EMR 新版本之前,请查看以下发行说明和未解决的缺陷。以下应用程序列表基于 Amazon EMR 版本 6.9。
**注意:**您可以通过这些超链接访问第三方应用程序网站、GitHub 或 Apache 网站。
- 升级 Flink 下的 Flink 发行说明和问题跟踪
- Ganglia 发行说明和问题跟踪
- Hadoop 发行说明和问题跟踪
- HBase 发行说明和问题跟踪
- HCatalog 发行说明和问题跟踪
- Hive 发行说明和问题跟踪
- Hue 发行说明和问题跟踪
- JupyterEnterpriseGateway 发行说明和问题跟踪
- JupyterHub 发行说明和问题跟踪
- Livy 发行说明和问题跟踪
- MXNet 发行说明和问题跟踪
- Oozie 发行说明和问题跟踪
- Phoenix 发行说明和问题跟踪
- Pig 发行说明和问题跟踪
- Presto 发行说明和问题跟踪
- Spark 发行说明和问题跟踪
- 发行下的 Sqoop 发行说明和问题跟踪
- TensorFlow 发行说明和问题跟踪
- Tez 发行说明和问题跟踪
- Trino 发行说明和问题跟踪
- Zeppelin 发行说明和问题跟踪
- ZooKeeper 发行说明和问题跟踪
相关内容
- AWS 官方已更新 2 年前
- AWS 官方已更新 3 年前
- AWS 官方已更新 3 年前
- AWS 官方已更新 3 年前