跳至内容

如何对我的 SageMaker AI 端点缺少 CloudWatch 指标问题进行故障排除?

2 分钟阅读
0

我想对我的 Amazon SageMaker AI 端点缺少 Amazon CloudWatch 指标问题进行故障排除。

解决方案

**注意:**如果您在运行 AWS 命令行界面 (AWS CLI) 命令时收到错误,请参阅 AWS CLI 错误故障排除。此外,请确保您使用的是最新版本的 AWS CLI

检查您的 CloudWatch 指标命名空间和维度

确保您检查的是正确的 CloudWatch 命名空间:

  • AWS/SageMaker 命名空间包含对 InvokeEndpoint 的 API 调用中的模型加载指标。
  • aws/sagemaker/Endpoints 命名空间包含对 InvokeEndpoint 的 API 调用中的实例指标。
  • aws/sagemaker/InferenceComponents 命名空间包含针对托管推理组件的端点进行的 InvokeEndpoint API 调用中的指标。

有关详细信息,请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker AI 的指标

此外,SageMaker AI 端点指标的维度为 EndpointNameVariantName

检查您的 IAM 权限

要向 CloudWatch 发布指标以及管理日志组,与您的端点关联的 AWS Identity and Access Management (IAM) 角色必须具有所需的 IAM 权限。

权限示例:

{
    "Version": "2012-10-17",
    "Statement": [{
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData",
            "cloudwatch:ListMetrics",
            "cloudwatch:GetMetricData",
            "logs:CreateLogGroup",
            "logs:CreateLogStream",
            "logs:PutLogEvents"
        ],
        "Resource": "*"
    }]
}

在创建或更新端点 20 分钟后,检查您的 CloudWatch 指标

创建或更新端点后,CloudWatch 指标可能需要长达 20 分钟才可用。请至少等待 20 分钟,然后再检查指标。

检查您的 SageMaker AI CloudWatch 日志

检查您的 SageMaker AI 日志,以识别可能导致您的指标无法发布到 CloudWatch 的问题。要访问 SageMaker 日志,请使用 CloudWatch 控制台。或者,运行以下 get-log-events 命令:

aws logs get-log-events --log-group-name example-sagemaker-log-group-name

**注意:**请将 example-sagemaker-log-group-name 替换为您的 SageMaker AI 日志组的名称。

检查您的指标保留期

CloudWatch 会将指标数据保留 15 个月。

要查看 SageMaker AI 端点的历史 CloudWatch 指标,请完成以下步骤:

  1. 打开 CloudWatch 控制台
  2. 在导航窗格中,选择 Metrics(指标),然后选择 All metrics(所有指标)。
  3. 选择要查看的指标。
  4. 要查看显示指定时间段内指标历史数据的图,请设置时间范围。

有关详细信息,请参阅使用 CloudWatch 登录

检查您的端点调用活动

当您的端点有持续流量时,CloudWatch 会生成指标。检查您的 SageMaker AI 端点上是否有流量或调用活动。

要检查您的端点调用历史记录,请完成以下步骤:

  1. 打开 SageMaker AI 控制台
  2. 在导航窗格中,选择 Inference(推理),然后选择 Endpoints(端点)。
  3. 选择您的端点。
  4. 选择 Monitor(监控)选项卡,然后选择 View invocation history(查看调用历史记录)。

或者,运行以下 sagemaker-runtime 命令来检索端点调用历史记录:

aws sagemaker-runtime get-invocation-history --endpoint-name example-endpoint-name [--max-results example-number] [--starting-time example-timestamp]

**注意:**请将 example-endpoint-name 替换为您的端点名称,将 example-number 替换为要查看的最大结果数,将 example-timestamp 替换为开始时间。