Sagemaker的多类别分类训练未能保存训练好的模型。

0

【以下的问题经过翻译处理】 你好,

我已经使用Auto-ML训练了一个多类分类模型。

使用

  • 训练镜像:sagemaker-xgboost:1.3-1-cpu-py
  • 实例类型:ml.m5.12xlarge

在时间限制到达之前,该运行已成功完成2次交叉验证。生成的最佳模型没有存储在指定的s3位置。该工作被配置为在终止时存储模型。

同时,我已经成功地使用相同的Auto-ML模板(Jupyter Notebook)完成了模型的训练和存储,因此我不认为这是配置或权限问题。

两者的主要区别是前者标签数量更多,即1950。该算法的允许标签限制为2000个。

重复运行该模型两次,结果仍然相同:模型没有被存储。

CloudWatch没有记录有关创建或存储模型的问题。

谢谢, 亚瑟

profile picture
전문가
질문됨 8달 전38회 조회
1개 답변
0

【以下的回答经过翻译处理】 我自己解决了这个问题:

  • 减少folds的数量以减少算法完成所需的时间。(将超参数_kfold设置为2)
  • 另一种可能性是增加算法允许运行的时间以让算法完成。

在给算法足够的时间完成后,完成了训练并将模型存储在了s3中。

所以我猜测问题是对于默认的120秒来说, 不足以在终止时完成模型的存储。

profile picture
전문가
답변함 8달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인

관련 콘텐츠