Amazon EMR クラスターをアップグレードする場合、計画のためにどのようなステップを実行することが考えられますか?
急速に変化するテクノロジーに対応するために Amazon EMR のアップグレードを計画する必要があります。
簡単な説明
ビッグデータの領域における急速な変化に対応するには、Amazon EMR のバージョンをアップグレードする必要があります。Amazon EMR の新しいバージョンに移行することで、ワークロードのオペレーショナルエクセレンスと効率を改善できます。ただし、Amazon EMR をアップグレードする前に、計画と準備を行う必要があります。確認しなければならない情報と、従わなければならない手順があります。
Amazon EMR のバージョンアップグレードのメリット
Amazon EMR のアップグレードには次のようなメリットがあります。
- 最新の機能を活用することで、生産性が向上し、コストが削減される。
- 更新されたアプリケーションの実行速度が速くなる。
- 最新のバグ修正により、安定したインフラストラクチャを実現できる。
- 最新のセキュリティパッチがセキュリティを強化する。
- オープンソースソフトウェア機能への最新のアクセス。
例えば、Amazon EMR バージョン 6.6 以降では、Log4j 1.x と Log4j 2.x は、それぞれ Log4j 1.2.17 と Log4j 2.17.1 (またはそれ以降) にアップグレードされます。上位のバージョンでは、共通脆弱性識別子 (Common Vulnerabilities and Exposures、CVE) を緩和するためにブートストラップアクションは必要ありません。
解決方法
オープンソースアプリケーション向けの Amazon EMR のパフォーマンス最適化機能
Amazon EMR は、多くのオープンソースアプリケーションのパフォーマンス最適化機能を提供しています。
Spark:
- Adaptive Query Execution
- Dynamic Partition Pruning
- Flattening Scalar Subqueries
- INTERSECT 前の DISTINCT
- Bloom Filter 結合
- 最適化された Join Reorder
- Amazon Simple Storage Service (Amazon S3) による改善された Spark パフォーマンス
- Spark リリース履歴: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの Spark とインストール済みコンポーネントのバージョンを確認してください。
Delta Lake:
- Spark での Delta Lake クラスターの使用
- Trino での Delta Lake クラスターの使用
- Delta リリース履歴: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの Delta Lake とインストール済みコンポーネントのバージョンを確認してください。
Flink:
- YARN アプリケーションとしてサポートされている Flink
- Flink リリース履歴: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの Flink とインストール済みコンポーネントのバージョンを確認してください。
Hadoop:
- Hadoop Distributed File System (HDFS) における透過的暗号化
- YARN コンテナ向けの Non-Uniform Memory Access の認識
- Hadoop バージョン履歴: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの Hadoop とインストール済みコンポーネントのバージョンを確認してください。
HBase:
- HBase on Amazon S3
- HBase リードレプリカクラスター
- HBase スナップショット
- HBase リリース履歴: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの HBase とインストール済みコンポーネントのバージョンを確認してください。
HCatalog:
- Amazon EMR リリースとの統合
- AWS Glue データカタログの Apache Hive のメタストアとしての使用
- HCatalog リリース履歴: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの HCatalog とインストール済みコンポーネントのバージョンを確認してください。
Hive:
- ACID トランザクションと Amazon S3
- Hive Live Long and Process (LLAP)
- Hive のパフォーマンスの改善
- Hive EMR File System (EMRFS) S3 Optimized Committer の開始
- S3 Select と Hive の併用によるパフォーマンスの改善
- メタストアチェックコマンド (MSCK) の最適化
- Hive リリース履歴: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの Hive とインストール済みコンポーネントのバージョンを確認してください。
Hudi:
- Amazon EMR リリースとの統合
- Hudi リリース履歴: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの Hudi とインストール済みコンポーネントのバージョンを確認してください。
Iceberg:
- Amazon EMR リリースとの統合
- Iceberg リリース履歴: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの Iceberg とインストール済みコンポーネントのバージョンを確認してください。
Presto および Trino:
- Amazon EMR リリースとの統合
- S3 Select Pushdown と Presto の併用によるパフォーマンスの改善
- データベースコネクタの追加
- Presto ストリクトモードのアクティブ化
- Exchange Manager
- Presto 自動スケーリングと Graceful Decommission の併用
- Presto リリース履歴と Trino のリリースノート: Amazon EMR をアップグレードすることを決定する前に、Amazon EMR リリースの Presto または Trino とインストール済みコンポーネントのバージョンを確認してください。
Amazon EMR のバージョンアップグレードの計画
Amazon EMR のバージョンアップグレードの準備をするには、次のステップに従います。
- 現在の Amazon EMR バージョンで直面している問題を調査します。
- EMR クラスターのパフォーマンスをテストするために使用するアプリケーションやクエリの小さなサブセットを分離します。
- A/B テスト戦略を設定して、ソリューションに最適な Amazon EMR のバージョンを決定します。Amazon EMR の A/B テストでは、サービスの 2 つの異なるバージョンをテストして、ご利用の環境におけるパフォーマンスを比較します。
- 新しいバージョンの Amazon EMR にワークロードを徐々に移行します。Amazon EMR の本番稼働用バージョンで重大な問題が見つかった場合は、ここで移行プロセスを終了できます。
- 移行が完了したら、古い Amazon EMR クラスターを終了します。
Amazon EMR のバージョンアップグレードに関連する問題の修正
Amazon EMR のバージョンをアップグレードする際に発生した問題を修正するには、次のステップに従います。
- アプリケーションを再設定します。変更によってアプリケーションのパフォーマンスが改善するかどうかを確認します。
- 新しいバージョンのアプリケーションで問題が解決されたかどうかを確認します。
- アプリケーションまたはクエリを変更して、問題を回避できるかどうかを確認します。
- 未解決の不具合と回避策を確認して、アプリケーションを改善します。回避策があるかどうかについては、AWS プレミアムサポートにお問い合わせください。
- 問題が修正されるか、回避策が見つかるまで、Amazon EMR の移行を停止します。
Amazon EMR のバージョンアップグレードに関する考慮事項
Amazon EMR のバージョンをアップグレードすると、パフォーマンスの低下によって問題が生じる可能性があります。アップグレードによって API が変更され、新しいインターフェイスでのコードの実行に影響する可能性があります。Amazon EMR のバージョンアップグレード後に、アプリケーションの速度低下や失敗が発生する可能性があります。
Amazon EMR のバージョンのアップグレードをお考えの場合は、ベストプラクティスとしてリリースガイドの「What's new?」(新着情報) セクションをお読みください。「What's new?」(新着情報) セクションには、Amazon EMR のリリースバージョンおよび日付に関する情報と、オープンソースアプリケーションにおける一般的な問題の解決策が記載されています。
オープンソースアプリケーションの変更点と未解決の問題を調査する
Amazon EMR の新しいバージョンに移行することを決定する前に、次のリリースノートと未解決の不具合を確認します。次のアプリケーションリストは、Amazon EMR バージョン 6.9 に基づいています。
注: これらのハイパーリンクをクリックすると、サードパーティーのアプリケーションのウェブサイト、GitHub、または Apache ウェブサイトに移動します。
- Flink の [Upgrade Flink] (Flink をアップグレードする) の下にあるリリースノートと問題の追跡
- Ganglia のリリースノートと問題の追跡
- Hadoop のリリースノートと問題の追跡
- HBase のリリースノートと問題の追跡
- HCatalog のリリースノートと問題の追跡
- Hive のリリースノートと問題の追跡
- Hue のリリースノートと問題の追跡
- JupyterEnterpriseGateway のリリースノートと問題の追跡
- JupyterHub のリリースノートと問題の追跡
- Livy のリリースノートと問題の追跡
- MXNet のリリースノートと問題の追跡
- Oozie のリリースノートと問題の追跡
- Phoenix のリリースノートと問題の追跡
- Pig のリリースノートと問題の追跡
- Presto のリリースノートと問題の追跡
- Spark のリリースノートと問題の追跡
- Sqoop の [Releases] (リリース) の下にあるリリースノートと問題の追跡
- TensorFlow のリリースノートと問題の追跡
- Tez のリリースノートと問題の追跡
- Trino のリリースノートと問題の追跡
- Zeppelin のリリースノートと問題の追跡
- ZooKeeper のリリースノートと問題の追跡
関連するコンテンツ
- 質問済み 7年前lg...
- 質問済み 10ヶ月前lg...
- 質問済み 1年前lg...
- AWS公式更新しました 3ヶ月前
- AWS公式更新しました 1ヶ月前
- AWS公式更新しました 1ヶ月前