我启动了一个 Amazon SageMaker 笔记本电脑实例来训练模型或加载大型数据集,但该笔记本电脑实例似乎被冻结了。如何查看我的 SageMaker 实例资源使用情况?
解决方法
使用 SageMaker 笔记本电脑实例资源进行原型设计、训练模型或处理大型数据集时,SageMaker 的浏览器或笔记本电脑实例可能显示无响应。如果您的浏览器或笔记本电脑实例显示无响应,则可以查看 SageMaker 资源利用率以查看当前的资源使用情况。
您可以使用以下方法之一查看 SageMaker 资源利用率:
- 运行基于 Linux 的命令
- 查看 Amazon CloudWatch 指标
使用 Linux 命令查看 SageMaker 资源利用率
SageMaker 笔记本电脑实例基于 Amazon Linux。您可以从 SageMaker 终端运行 Linux 命令来查看 SageMaker 资源利用率。
要运行 SageMaker Linux 命令来查看资源利用率,请执行以下操作:
1.打开 SageMaker console(SageMaker 控制台)。
2.在导航窗格中,选择 Notebook Instances(笔记本电脑实例)。
3.在所选 SageMaker 笔记本电脑实例旁 Open Jupyter(打开 Jupyter)或 Open JupyterLab(打开 JupyterLab)。
4.打开终端。
5.运行以下命令以查看 SageMaker 资源利用率:
top
上述命令显示可用的系统内存(RAM)和处理器负载。
ps -ax
上述命令显示正在运行的任务和处理器负载。
df -h
上述命令显示磁盘空间利用率和可用性。
free -m
上述命令显示系统内存(RAM)利用率和可用性。
使用 CloudWatch 查看 SageMaker 资源利用率
通过使用生命周期配置脚本,您可以使用 CloudWatch 查看 SageMaker 资源利用率。例如,publish-instance-metrics 脚本将笔记本电脑实例中的系统级指标发布到 CloudWatch 中。
要配置 SageMaker 笔记本电脑实例以查看 CloudWatch 中的所有指标,请执行以下操作:
1.打开 SageMaker console(SageMaker 控制台)。
2.在导航窗格中,选择 Notebook Instances(笔记本电脑实例)。
3.选择所选 SageMaker 笔记本电脑实例旁的 Open Jupyter(打开 Jupyter)或 Open Jupyterlab(打开 Jupyterlab)。
4.打开终端。
5.输入以下命令以打开 amazon-cloudwatch-agent-config-wizard:
sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard
6.按照向导中的步骤操作。出现提示时,执行以下操作:
- 选择 On-premises host(本地主机)
- 为 StatsD Daemon(StatsD 进程守护程序)选择 no(否)
- 为 CollectD 选择 no(否)
7.向导完成后,会自动创建一个 config.json 文件。该文件将在下一步中使用。
8.使用以下命令在服务器上启动 CloudWatch 代理:
sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:///opt/aws/amazon-cloudwatch-agent/bin/config.json -s
9.从 CloudWatch 控制台,选择 Metrics(指标),然后选择 CWAgent。
10.CWAgent 显示当前的 SageMaker 指标。
有关 SageMaker 笔记本电脑示例 AWS 生命周期配置脚本的更多信息,请参阅 amazon-sagemaker-notebook-instance-lifecycle-config-samples。
相关信息
使用 Amazon CloudWatch 监控 Amazon SageMaker
CloudWatch 代理收集的指标
监控 Amazon SageMaker
终端 - 终端的 Jupyter 项目文档