Desidero risolvere gli errori che ricevo quando eseguo job di addestramento Amazon SageMaker AI.
Risoluzione
Per identificare l'errore di un job di addestramento SageMaker AI, controlla il motivo dell'errore sulla console SageMaker AI o nella chiamata API DescribeTrainingJob. Quindi applica la risoluzione corrispondente all'errore riscontrato.
Errore interno del server
Per assicurarti che un problema temporaneo non sia la causa dell'errore, riesegui il job.
Se il job dà nuovamente esito negativo, visualizza i log dei job di addestramento in Amazon CloudWatch. Esamina le metriche dei job, come CPUUtilization, MemoryUtilization e DiskUtilization, per verificare se l'errore si è verificato a causa di una limitazione delle risorse. Puoi anche visualizzare i log dei job di addestramento e le metriche dei job sulla console SageMaker AI.
Se le metriche CPUUtilization o MemoryUtilization sono elevate, utilizza un'istanza job di dimensioni maggiori per il job di addestramento. Se la metrica DiskUtilization è elevata, aumenta il parametro VolumeSizeInGB quando crei il job di addestramento.
Errore di capacità dell'istanza
Se il job di addestramento dà esito negativo con un errore di capacità dell'istanza, la capacità on demand non è sufficiente per completare il job. Per ulteriori informazioni, consulta Come faccio a risolvere l'errore di capacità insufficiente durante l'avvio delle risorse Amazon SageMaker AI?
Per risolvere l'errore, esegui una di queste azioni:
- Ritarda la richiesta e ritenta successivamente. I problemi di capacità sono transitori e potrebbero essere risolti nel momento in cui ritenti la richiesta.
- Passa a un tipo o a una dimensione di istanza diverso con maggiore capacità.
- Avvia il job di addestramento in un'altra Regione AWS.
Errore MaxRuntimeExceeded
La durata massima predefinita per un job di addestramento è di 1 giorno. Puoi regolare il runtime fino a un massimo di 28 giorni. Per aumentare il valore massimo di runtime, passa il parametro MaxRuntimeInSeconds nell'API CreateTrainingJob o il parametro max_run in SageMaker AI Python SDK Estimator. Per ulteriori informazioni, consulta Estimators (Stimatori) sul sito web di Amazon SageMaker Python SDK.
Informazioni correlate
Log per gli algoritmi integrati