Sagemaker的多类别分类训练未能保存训练好的模型。

0

【以下的问题经过翻译处理】 你好,

我已经使用Auto-ML训练了一个多类分类模型。

使用

  • 训练镜像:sagemaker-xgboost:1.3-1-cpu-py
  • 实例类型:ml.m5.12xlarge

在时间限制到达之前,该运行已成功完成2次交叉验证。生成的最佳模型没有存储在指定的s3位置。该工作被配置为在终止时存储模型。

同时,我已经成功地使用相同的Auto-ML模板(Jupyter Notebook)完成了模型的训练和存储,因此我不认为这是配置或权限问题。

两者的主要区别是前者标签数量更多,即1950。该算法的允许标签限制为2000个。

重复运行该模型两次,结果仍然相同:模型没有被存储。

CloudWatch没有记录有关创建或存储模型的问题。

谢谢, 亚瑟

profile picture
EXPERTO
preguntada hace 8 meses38 visualizaciones
1 Respuesta
0

【以下的回答经过翻译处理】 我自己解决了这个问题:

  • 减少folds的数量以减少算法完成所需的时间。(将超参数_kfold设置为2)
  • 另一种可能性是增加算法允许运行的时间以让算法完成。

在给算法足够的时间完成后,完成了训练并将模型存储在了s3中。

所以我猜测问题是对于默认的120秒来说, 不足以在终止时完成模型的存储。

profile picture
EXPERTO
respondido hace 8 meses

No has iniciado sesión. Iniciar sesión para publicar una respuesta.

Una buena respuesta responde claramente a la pregunta, proporciona comentarios constructivos y fomenta el crecimiento profesional en la persona que hace la pregunta.

Pautas para responder preguntas