1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 如果在启动训练作业时指定了一个检查点配置(无论是否使用托管的spot训练),则检查点将起作用。您可以按如下方式提供本地路径和S3路径(API参考):“CheckpointConfig”:{“LocalPath”:“string”,“S3Uri”:“string”}
本地路径默认为/opt/ml/checkpoints/,然后您可以通过S3Uri指定目标路径中的S3。在此配置的情况下,SageMaker将配置一个输出通道,使用持续上传模式上传到Amazon S3。目前,这将导致在主机上运行代理程序,监视文件系统并将数据持续上传到Amazon S3。启用调试时也会应用类似的行为,以将tensor数据传送到Amazon S3。正如注释所述,sagemaker-containers实现了保存中间输出并在文件系统上监视文件,但在可能的情况下,我更愿意依赖服务所提供的功能,以避免对特定库的依赖关系。注意:在使用SageMaker Processing时,可以将输出通道配置为使用持续上传模式;更多信息请参见此处。