Sagemaker的多类别分类训练未能保存训练好的模型。

0

【以下的问题经过翻译处理】 你好,

我已经使用Auto-ML训练了一个多类分类模型。

使用

  • 训练镜像:sagemaker-xgboost:1.3-1-cpu-py
  • 实例类型:ml.m5.12xlarge

在时间限制到达之前,该运行已成功完成2次交叉验证。生成的最佳模型没有存储在指定的s3位置。该工作被配置为在终止时存储模型。

同时,我已经成功地使用相同的Auto-ML模板(Jupyter Notebook)完成了模型的训练和存储,因此我不认为这是配置或权限问题。

两者的主要区别是前者标签数量更多,即1950。该算法的允许标签限制为2000个。

重复运行该模型两次,结果仍然相同:模型没有被存储。

CloudWatch没有记录有关创建或存储模型的问题。

谢谢, 亚瑟

profile picture
EXPERTE
gefragt vor 9 Monaten41 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 我自己解决了这个问题:

  • 减少folds的数量以减少算法完成所需的时间。(将超参数_kfold设置为2)
  • 另一种可能性是增加算法允许运行的时间以让算法完成。

在给算法足够的时间完成后,完成了训练并将模型存储在了s3中。

所以我猜测问题是对于默认的120秒来说, 不足以在终止时完成模型的存储。

profile picture
EXPERTE
beantwortet vor 9 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen