AWS announces preview of AWS Interconnect - multicloud
AWS announces AWS Interconnect – multicloud (preview), providing simple, resilient, high-speed private connections to other cloud service providers. AWS Interconnect - multicloud is easy to configure and provides high-speed, resilient connectivity with dedicated bandwidth, enabling customers to interconnect AWS networking services such as AWS Transit Gateway, AWS Cloud WAN, and Amazon VPC to other cloud service providers with ease.
Come posso risolvere i problemi relativi agli script di configurazione del ciclo di vita in Amazon SageMaker AI?
Desidero risolvere i problemi relativi agli script di configurazione del ciclo di vita (LCC) in Amazon SageMaker AI.
Risoluzione
Il timeout dello script LCC scade
Quando l'esecuzione di uno script LCC impiega più tempo rispetto alla quota di 5 minuti, lo script scade.
Per ridurre il tempo di esecuzione dello script, effettua le seguenti azioni:
- Riduci il numero di passaggi necessari. Ad esempio, limita gli ambienti conda in cui installi pacchetti di grandi dimensioni.
- Esegui attività in processi paralleli.
- Esegui il comando nohup nello script per ignorare i segnali di blocco in modo che lo script possa essere completato entro 5 minuti.
Per eseguire il comando nohup, inizializza il comando sulla riga di codice specifica, quindi termina la riga di codice con una e commerciale.
Esempio di script:
=== #!/bin/bash set -e # OVERVIEW # This script executes an existing Notebook file on the instance during start using nbconvert(https://github.com/jupyter/nbconvert) # PARAMETERS ENVIRONMENT=python3 NOTEBOOK_FILE=/home/ec2-user/SageMaker/test.ipynb source /home/ec2-user/anaconda3/bin/activate "$ENVIRONMENT" nohup jupyter nbconvert --to notebook --ExecutePreprocessor.timeout=-1 --ExecutePreprocessor.kernel_name=python3 --execute "$NOTEBOOK_FILE" & source /home/ec2-user/anaconda3/bin/deactivate ====
Non puoi eliminare uno script LCC esistente
Nota: se ricevi errori quando esegui i comandi dell'Interfaccia della linea di comando AWS (AWS CLI), consulta Risoluzione degli errori per AWS CLI. Inoltre, assicurati di utilizzare la versione più recente di AWS CLI.
Quando tenti di eliminare uno script LCC già collegato a un dominio di SageMaker Studio, potresti ricevere il seguente messaggio di errore:
"Loading of domain lifecycle failed. [400] ResourceNotFound: LifecycleConfig does not exist."
Per risolvere il problema, devi prima scollegare lo script LCC, quindi eliminarlo.
In alternativa, puoi impostare il parametro LifecycleConfigArns nella configurazione del dominio su un elenco vuoto.
Per riconfigurare il dominio, completa i seguenti passaggi:
-
Esegui questo comando describe-domain per visualizzare l'elenco degli script LCC associati nel parametro LifecycleConfigArns:
aws sagemaker describe-domain —domain-id d-xxxxxxxxx -
Esegui questo comando update-domain per impostare il parametro su un elenco vuoto:
aws sagemaker update-domain --domain-id d-xxxxxxxxx \ --default-user-settings '{ "JupyterServerAppSettings": { "DefaultResourceSpec": { "InstanceType": "system" }, "LifecycleConfigArns": [] } }'
Quando esegui nuovamente il comando update-domain, il dominio non fa più riferimento allo script LCC. Quindi puoi collegare il nuovo script LCC al dominio.
Lo script LCC non riesce a installare un pacchetto
Se lo script LCC non riesce a installare pacchetti in un dominio o in un'istanza del notebook SageMaker Studio, lo script LCC potrebbe non avere accesso al dominio o all'istanza. Per risolvere il problema, devi collegare il relativo dominio o la relativa istanza del notebook SageMaker Studio ad Amazon Virtual Private Cloud (VPC). Il VPC deve inoltre consentire l'accesso a Internet.
Puoi associare un VPC alla comunicazione predefinita tramite Internet in modalità PublicInternetOnly (Solo Internet pubblico). In alternativa, puoi configurare la comunicazione tramite Internet in modalità Solo VPC.
Se utilizzi la modalità Solo VPC, configura gruppi di sicurezza con regole in entrata e in uscita che consentano il seguente traffico:
- Traffico NFS tramite TCP sulla porta 2049 tra il dominio e il volume Amazon Elastic File System (Amazon EFS).
- Traffico TCP all'interno del gruppo di sicurezza.
Nota: il traffico TCP all'interno del gruppo di sicurezza serve per collegare l'applicazione Jupyter Server e le applicazioni Kernel Gateway. Devi consentire l'accesso almeno alle porte nell'intervallo 8192-65535.
Per consentire l'accesso a Internet, devi utilizzare un gateway NAT con accesso a Internet.
L'istanza non riesce a trovare il contenuto dello script LCC
Quando l'istanza dell'applicazione non riesce a trovare il contenuto dello script LCC, potresti ricevere il seguente messaggio di errore:
"stdbuf: failed to run command "/opt/ml/lifecycleconfig/lifecycle_script.sh": No such file or directory"
Questo errore può verificarsi a causa dell'incompatibilità tra i simboli in formato Windows e i simboli in formato Unix. I caratteri delle finestre utilizzano le terminazioni di riga CRLF (\ r\n) e Unix utilizza le terminazioni di riga LF (\n).
Le istanze del notebook Amazon SageMaker AI vengono eseguite sul sistema operativo Amazon Linux 2 (AL2). Uno script bash LCC scaricato su un sistema operativo Windows e collegato direttamente alla configurazione del ciclo di vita non è valido per il sistema operativo Linux.
Per risolvere il problema, completa i seguenti passaggi:
- Apri lo script bash in Notepad++.
- Scegli Visualizza, quindi scegli Mostra simbolo.
- Scegli Mostra tutti i simboli per visualizzare le terminazioni di riga di Windows (\ r\n).
- Cambia CRLF in LF (\n) per rendere lo script valido in Unix.
- Allega lo script alla configurazione del ciclo di vita.
Informazioni correlate
Esecuzione del debug delle configurazioni del ciclo di vita
Collega i notebook Connect Studio in un VPC a risorse esterne
- Argomenti
- Machine Learning & AIStorage
- Lingua
- Italiano
