如何在SageMaker训练作业期间创建模型文件的检查点?

0

【以下的问题经过翻译处理】 你好,是否有一种方法可以在SageMaker自定义的训练容器中设置模型工件的检查点?

profile picture
专家
已提问 9 个月前24 查看次数
1 回答
0

【以下的回答经过翻译处理】 如果在启动训练作业时指定了一个检查点配置(无论是否使用托管的spot训练),则检查点将起作用。您可以按如下方式提供本地路径和S3路径(API参考):“CheckpointConfig”:{“LocalPath”:“string”,“S3Uri”:“string”}本地路径默认为/opt/ml/checkpoints/,然后您可以通过S3Uri指定目标路径中的S3。在此配置的情况下,SageMaker将配置一个输出通道,使用持续上传模式上传到Amazon S3。目前,这将导致在主机上运行代理程序,监视文件系统并将数据持续上传到Amazon S3。启用调试时也会应用类似的行为,以将tensor数据传送到Amazon S3。正如注释所述,sagemaker-containers实现了保存中间输出并在文件系统上监视文件,但在可能的情况下,我更愿意依赖服务所提供的功能,以避免对特定库的依赖关系。注意:在使用SageMaker Processing时,可以将输出通道配置为使用持续上传模式;更多信息请参见此处。

profile picture
专家
已回答 9 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则