跳至内容

如何解决我在运行 SageMaker 人工智能训练作业时收到的错误?

1 分钟阅读
0

我想解决我在运行 Amazon SageMaker 人工智能训练作业时收到的错误。

解决方法

要确定您的 SageMaker 人工智能训练作业的错误,请在 SageMaker 人工智能控制台DescribeTrainingJob API 调用中检查失败原因。然后,完成作业错误的解决方法。

内部服务器错误

要确保暂时性问题不会导致错误,请重试该作业。

如果作业在您重试时失败,则在 Amazon CloudWatch 上查看训练作业的日志。查看 CPUUtilizationMemoryUtilizationDiskUtilization 等作业指标,以检查故障是否由于资源限制而发生。您还可以在 SageMaker 人工智能控制台上查看训练作业日志和作业指标

如果 CPUUtilizationMemoryUtilization 很高,请使用更大的训练作业实例大小。如果 DiskUtilization 很高,请在创建训练作业时增加 VolumeSizeInGB 参数。

实例容量错误

如果训练作业因实例容量错误而失败,则没有足够的按需容量来完成作业。有关详细信息,请参阅如何解决启动 Amazon SageMaker 人工智能资源时出现的容量不足错误?

要解决此错误,请执行以下操作之一:

  • 延迟您的请求,稍后再试。容量问题是暂时性的,在您重试请求时可能会得到解决。
  • 切换到容量更大的其他实例类型或大小。
  • 在不同的 AWS 区域启动训练作业。

MaxRuntimeExceeded 错误

训练作业的默认最大运行时为 1 天。您可以将运行时调整到最多 28 天。要增加最大运行时值,请在 CreateTrainingJob API 中传递 MaxRuntimeInSeconds 参数或在 SageMaker 人工智能 Python SDK 估算器中传递 max_run 参数。有关详细信息,请参阅 Amazon SageMaker Python SDK 网站上的估算器

相关信息

内置算法的日志