我想对我的 Amazon SageMaker AI 端点缺少 Amazon CloudWatch 指标问题进行故障排除。
解决方案
**注意:**如果您在运行 AWS 命令行界面 (AWS CLI) 命令时收到错误,请参阅 AWS CLI 错误故障排除。此外,请确保您使用的是最新版本的 AWS CLI。
检查您的 CloudWatch 指标命名空间和维度
确保您检查的是正确的 CloudWatch 命名空间:
- AWS/SageMaker 命名空间包含对 InvokeEndpoint 的 API 调用中的模型加载指标。
- aws/sagemaker/Endpoints 命名空间包含对 InvokeEndpoint 的 API 调用中的实例指标。
- aws/sagemaker/InferenceComponents 命名空间包含针对托管推理组件的端点进行的 InvokeEndpoint API 调用中的指标。
有关详细信息,请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker AI 的指标。
此外,SageMaker AI 端点指标的维度为 EndpointName 和 VariantName。
检查您的 IAM 权限
要向 CloudWatch 发布指标以及管理日志组,与您的端点关联的 AWS Identity and Access Management (IAM) 角色必须具有所需的 IAM 权限。
权限示例:
{
"Version": "2012-10-17",
"Statement": [{
"Effect": "Allow",
"Action": [
"cloudwatch:PutMetricData",
"cloudwatch:ListMetrics",
"cloudwatch:GetMetricData",
"logs:CreateLogGroup",
"logs:CreateLogStream",
"logs:PutLogEvents"
],
"Resource": "*"
}]
}
在创建或更新端点 20 分钟后,检查您的 CloudWatch 指标
创建或更新端点后,CloudWatch 指标可能需要长达 20 分钟才可用。请至少等待 20 分钟,然后再检查指标。
检查您的 SageMaker AI CloudWatch 日志
检查您的 SageMaker AI 日志,以识别可能导致您的指标无法发布到 CloudWatch 的问题。要访问 SageMaker 日志,请使用 CloudWatch 控制台。或者,运行以下 get-log-events 命令:
aws logs get-log-events --log-group-name example-sagemaker-log-group-name
**注意:**请将 example-sagemaker-log-group-name 替换为您的 SageMaker AI 日志组的名称。
检查您的指标保留期
CloudWatch 会将指标数据保留 15 个月。
要查看 SageMaker AI 端点的历史 CloudWatch 指标,请完成以下步骤:
- 打开 CloudWatch 控制台。
- 在导航窗格中,选择 Metrics(指标),然后选择 All metrics(所有指标)。
- 选择要查看的指标。
- 要查看显示指定时间段内指标历史数据的图,请设置时间范围。
有关详细信息,请参阅使用 CloudWatch 登录。
检查您的端点调用活动
当您的端点有持续流量时,CloudWatch 会生成指标。检查您的 SageMaker AI 端点上是否有流量或调用活动。
要检查您的端点调用历史记录,请完成以下步骤:
- 打开 SageMaker AI 控制台。
- 在导航窗格中,选择 Inference(推理),然后选择 Endpoints(端点)。
- 选择您的端点。
- 选择 Monitor(监控)选项卡,然后选择 View invocation history(查看调用历史记录)。
或者,运行以下 sagemaker-runtime 命令来检索端点调用历史记录:
aws sagemaker-runtime get-invocation-history --endpoint-name example-endpoint-name [--max-results example-number] [--starting-time example-timestamp]
**注意:**请将 example-endpoint-name 替换为您的端点名称,将 example-number 替换为要查看的最大结果数,将 example-timestamp 替换为开始时间。