如何创建 Amazon EMR Serverless 应用程序来运行 Spark 任务?

1 分钟阅读
0

我想创建一个 Amazon EMR Serverless 应用程序来运行 Spark 任务。

解决方法

要创建 EMR Serverless 应用程序来运行 Spark 任务,请完成下面的步骤:

  1. 打开 Amazon EMR 控制台
  2. 在导航窗格中,选择 EMR Serverless
  3. 创建新的 EMR Studio,或者选择现有 Studio:
    如果没有 Studio,请选择开始使用,然后选择创建并启动 EMR Studio
    如果有 Studio,请选择该 Studio,然后选择管理应用程序
  4. 在应用程序页面上,选择创建应用程序
  5. 输入应用程序的名称,然后选择创建并启动应用程序
    注意:设置应用程序时,请选择 Spark 作为类型,然后选择要用作发行版版本的 Amazon EMR 版本。
  6. 在应用程序状态变为已启动后,请选择应用程序的名称。
  7. 选择提交批处理任务运行
  8. 在任务设置中,输入任务的名称和 Amazon Simple Storage Service(Amazon S3)存储桶脚本位置。然后,选择运行时角色。
  9. (可选)要将 Spark 字数统计任务作为示例任务运行,请在脚本位置设置 s3://example-region.elasticmapreduce/emr-containers/samples/wordcount/scripts/wordcount.py,在脚本参数中设置 s3://example-bucket/example-output
    注意:如果没有运行时角色,请选择创建新角色,然后选择创建角色。有关详细信息,请参阅 Job runtime roles for Amazon EMR Serverless
  10. 选择提交任务运行
  11. 批处理任务运行选项卡上,确认您的 Spark 任务正在运行。
  12. 运行状态变为成功后,您可以检查任务结果。如果运行了一个 Spark 字数统计任务,请检查 Amazon S3 路径以获取任务结果。
  13. 要查看 Spark UI,请选择任务运行名称。然后,执行以下操作:
    选择查看应用程序 UI
    选择 **Spark UI(正在运行的任务)**或 Spark History Server(已完成的任务)
    注意:在 Spark UI 中,您可以在执行程序选项卡中检索相应的驱动程序和运行时日志。提交任务运行时,您可以选择 EMR Serverless 如何存储和提供应用程序日志

相关信息

How do I use alternative storage options for EMR Serverless?

AWS 官方
AWS 官方已更新 2 个月前