如何对在 ECS 集群中启动失败的 Amazon ECS 任务进行故障排除?

1 分钟阅读
0

我想使用 AWSSupport-TroubleshootECSTaskFailedToStart 运行手册来对 ECS 集群中失败的 Amazon Elastic Container Service (Amazon ECS) 任务进行故障排除。

简短描述

使用 AWSSupport-TroubleshootECSTaskFailedToStart AWS Systems Manager Automation 运行手册来分析可能阻碍 ECS 任务启动的问题。该运行手册分析了 Amazon Virtual Private Cloud (Amazon VPC) 和网络连接、安全组和日志记录配置、AWS Identify and Access Management (IAM) 权限以及 AWS Secrets Manager 密钥。

在启动 AWSSupport-TroubleshootECSTaskFailedToStart 运行手册之前,请确保您的 IAM 用户或角色拥有所需的权限。有关详细信息,请参阅 AWSSupport-TroubleshootECSTaskFailedToStartRequired IAM permissions(所需的 IAM 权限)部分。

解决方法

要启动运行手册,请完成以下步骤:

  1. 在 AWS Systems Manager 控制台中导航到 AWSSupport-TroubleshootECSTaskFailedToStart 文档。
  2. 选择 Execute automation(执行自动化)。
  3. 为输入参数输入以下值:
    AutomationAssumeRole(可选): 允许自动化执行操作的 IAM 角色的 ARN。如果您未指定角色,则自动化将使用启动运行手册的用户的权限。
    ClusterName(必填): 任务启动失败的 ECS 集群的名称。
    CloudwatchRetentionPeriod(可选): 将 AWS Lambda 函数日志存储在 Amazon CloudWatch Logs 中的保留期(以天为单位)。当分析确定必须测试网络连接时,需要此参数。默认值为 30。其他有效值为: 1 | 3 | 5 | 7 | 14 | 60 | 90。
    TaskId(必填): 最近失败的任务的 ID。
  4. 选择 Execute(执行)。
    **注意:**有关运行手册步骤的详细信息,请参阅 AWSSupport-TroubleshootECSTaskFailedToStartDocument Steps(文档步骤)部分。
  5. 自动化完成后,在 Outputs(输出)部分查看详细结果。输出包含以下信息:
    **TaskFailureReason:**最终任务失败原因分析及解释。
    **ExecutionLogs:**运行手册执行的每个步骤的输出日志。
    **ENI_Deletion_Message.Status:**运行手册创建用于网络连接测试的 Lambda 函数时 Lambda VPC 弹性网络接口删除的状态。
    **注意:**如果 ENI_Deletion_Message 显示弹性网络接口尚未删除,请手动删除该资源。

相关信息

AWS Support 自动化工作流程 (SAW)

设置自动化

运行自动化

AWS 官方
AWS 官方已更新 1 年前