Sagemaker的多类别分类训练未能保存训练好的模型。

0

【以下的问题经过翻译处理】 你好,

我已经使用Auto-ML训练了一个多类分类模型。

使用

  • 训练镜像:sagemaker-xgboost:1.3-1-cpu-py
  • 实例类型:ml.m5.12xlarge

在时间限制到达之前,该运行已成功完成2次交叉验证。生成的最佳模型没有存储在指定的s3位置。该工作被配置为在终止时存储模型。

同时,我已经成功地使用相同的Auto-ML模板(Jupyter Notebook)完成了模型的训练和存储,因此我不认为这是配置或权限问题。

两者的主要区别是前者标签数量更多,即1950。该算法的允许标签限制为2000个。

重复运行该模型两次,结果仍然相同:模型没有被存储。

CloudWatch没有记录有关创建或存储模型的问题。

谢谢, 亚瑟

profile picture
专家
已提问 8 个月前34 查看次数
1 回答
0

【以下的回答经过翻译处理】 我自己解决了这个问题:

  • 减少folds的数量以减少算法完成所需的时间。(将超参数_kfold设置为2)
  • 另一种可能性是增加算法允许运行的时间以让算法完成。

在给算法足够的时间完成后,完成了训练并将模型存储在了s3中。

所以我猜测问题是对于默认的120秒来说, 不足以在终止时完成模型的存储。

profile picture
专家
已回答 8 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则