如何将 Amazon EMR Notebook 关联到 Git 存储库?

1 分钟阅读
0

我想将我的 Amazon EMR Notebook 关联到 Git 存储库。

解决方法

**注意:**Amazon EMR Notebooks 在新 Amazon EMR 控制台中以 Amazon EMR Studio Workspaces 的形式提供。

要在旧控制台中创建新的 Amazon EMR Notebook 并将其与 Git 存储库相关联,请完成以下步骤:

  1. 在 Amazon Virtual Private Cloud (Amazon VPC) 中创建私有子网
  2. 创建 NAT 网关,然后更新路由表以指向 NAT 网关。
  3. 在私有子网中启动 Amazon EMR 集群。在软件配置部分,确保所选配置包含 Apache Spark、Apache Hadoop 和 Apache Livy。
  4. 在等待集群进入等待状态时,添加 Git 存储库
  5. 对于 Git 凭证,请选择创建新密钥。确保用户名是 Git 账户的别名
  6. 使用以下出站规则创建自定义安全组,命名为 ElasticMapReduceEditors-Editor
    对于规则 1,将类型设置为自定义 TCP 规则协议设置为 TCP端口范围设置为 18888目标设置为 ElasticMapReduceEditors-Livy
    对于规则 2,将类型设置为 HTTPS协议设置为 TCP端口范围设置为 443目标设置为0.0.0.0/0
  7. 使用以下设置向 ElasticMapReduceEditors-Livy 安全组添加入站规则
    类型: 自定义 TCP 规则
    协议: TCP
    端口范围: 18888
    目标: 输入您的自定义安全组的名称。
  8. 修改 EMR_Notebooks_DefaultRole Amazon EMR Notebooks 服务角色,以允许 secretsmanager:GetSecretValue 操作。
  9. 使用以下安全组设置创建 Amazon EMR Notebook
    安全组部分,选择选择安全组
    对于主实例的安全组,选择 ElasticMapReduceEditors-Livy
    对于 Notebook 实例的安全组,选择您的自定义安全组。
  10. 确认 Git 存储库状态更改为已关联。状态更改为已关联后,可以在 Notebook 中使用 Git 存储库
AWS 官方
AWS 官方已更新 3 个月前