Come faccio a risolvere i problemi relativi ai lavori programmati sul notebook in SageMaker Studio?
Quando eseguo un lavoro programmato sul notebook in Amazon SageMaker Studio, ricevo un errore.
Breve descrizione
Esistono due errori comuni che potrebbero impedire un lavoro programmato sul notebook in SageMaker Studio:
- Errori AccessDenied
- Errori dell'interfaccia utente quando si tenta di aggiornare un lavoro
Risoluzione
Errori AccessDenied
Gli errori AccessDenied riguardano più comunemente i seguenti problemi:
- Policy di AWS Identity and Access Management (IAM)
- Policy degli endpoint del cloud privato virtuale (VPC)
- Eccezioni relative ai tag delle risorse
Problemi relativi alle policy IAM
Gli errori AccessDenied si verificano più comunemente a causa di errori basati sulle autorizzazioni. Pertanto, segui le best practice per il ruolo IAM di cui hai bisogno per il lavoro del notebook. Per la relazione di attendibilità di base è necessario il seguente ruolo IAM:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
Inoltre, verifica che il tuo ruolo IAM disponga delle seguenti autorizzazioni:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "iam:PassRole", "Resource": "arn:aws:iam::*:role/*", "Condition": { "StringLike": { "iam:PassedToService": [ "sagemaker.amazonaws.com", "events.amazonaws.com" ] } } }, { "Effect": "Allow", "Action": [ "events:TagResource", "events:DeleteRule", "events:PutTargets", "events:DescribeRule", "events:PutRule", "events:RemoveTargets", "events:DisableRule", "events:EnableRule" ], "Resource": "*", "Condition": { "StringEquals": { "aws:ResourceTag/sagemaker:is-scheduling-notebook-job": "true" } } }, { "Effect": "Allow", "Action": [ "s3:CreateBucket", "s3:PutBucketVersioning", "s3:PutEncryptionConfiguration" ], "Resource": "arn:aws:s3:::sagemaker-automated-execution-*" }, { "Effect": "Allow", "Action": [ "sagemaker:ListTags" ], "Resource": [ "arn:aws:sagemaker:*:*:user-profile/*", "arn:aws:sagemaker:*:*:space/*", "arn:aws:sagemaker:*:*:training-job/*", "arn:aws:sagemaker:*:*:pipeline/*" ] }, { "Effect": "Allow", "Action": [ "sagemaker:AddTags" ], "Resource": [ "arn:aws:sagemaker:*:*:training-job/*", "arn:aws:sagemaker:*:*:pipeline/*" ] }, { "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface", "ec2:CreateNetworkInterfacePermission", "ec2:CreateVpcEndpoint", "ec2:DeleteNetworkInterface", "ec2:DeleteNetworkInterfacePermission", "ec2:DescribeDhcpOptions", "ec2:DescribeNetworkInterfaces", "ec2:DescribeRouteTables", "ec2:DescribeSecurityGroups", "ec2:DescribeSubnets", "ec2:DescribeVpcEndpoints", "ec2:DescribeVpcs", "ecr:BatchCheckLayerAvailability", "ecr:BatchGetImage", "ecr:GetDownloadUrlForLayer", "ecr:GetAuthorizationToken", "s3:ListBucket", "s3:GetBucketLocation", "s3:GetEncryptionConfiguration", "s3:PutObject", "s3:DeleteObject", "s3:GetObject", "sagemaker:DescribeDomain", "sagemaker:DescribeUserProfile", "sagemaker:DescribeSpace", "sagemaker:DescribeStudioLifecycleConfig", "sagemaker:DescribeImageVersion", "sagemaker:DescribeAppImageConfig", "sagemaker:CreateTrainingJob", "sagemaker:DescribeTrainingJob", "sagemaker:StopTrainingJob", "sagemaker:Search", "sagemaker:CreatePipeline", "sagemaker:DescribePipeline", "sagemaker:DeletePipeline", "sagemaker:StartPipelineExecution" ], "Resource": "*" } ] }
Per ulteriori informazioni, consulta la sezione Politiche gestite da AWS per SageMaker Notebook.
Problemi con gli endpoint VPC
Se il lavoro del notebook viene avviato tramite un endpoint VPC, verifica la configurazione e la policy dell'endpoint. Accertati di seguire i passaggi e le best practice per l'endpoint del servizio in questione:
- Endpoint VPC di Amazon Elastic Compute Cloud (Amazon EC2)
- Endpoint di Amazon EventBridge
- Endpoint di SageMaker
- Endpoint di Amazon Simple Storage Service (Amazon S3)
Per gli endpoint VPC di Amazon S3, l'errore più comune riguarda un endpoint limitato a un singolo account. Ad esempio, la seguente policy limita l'accesso a un account con ID 111122223333:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowSpecificAccountsPermission", "Effect": "Allow", "Principal": { "AWS": "*" }, "Action": "s3:*", "Resource": "*", "Condition": { "StringEquals": { "s3:ResourceAccount": "111122223333" } } } ] }
In questo caso, è necessario consentire anche l'accesso al bucket seguente per le azioni dell'utente:
{ "Action": [ "s3:*" ], "Resource": [ "arn:aws:s3:::sagemakerheadlessexecution-prod-*", "arn:aws:s3:::sagemakerheadlessexecution-prod-*/*" ], "Effect": "Allow", "Sid": "SCTASK14554266" }
Eccezioni relative ai tag delle risorse
Assicurati che la policy IAM disponga delle seguenti autorizzazioni:
{ "Effect": "Allow", "Action": [ "events:TagResource", "events:DeleteRule", "events:PutTargets", "events:DescribeRule", "events:PutRule", "events:RemoveTargets", "events:DisableRule", "events:EnableRule" ], "Resource": "*", "Condition": { "StringEquals": { "aws:ResourceTag/sagemaker:is-scheduling-notebook-job": "true" } } }
Errori dell'interfaccia utente quando si tenta di aggiornare un lavoro
È possibile che si verifichi un errore di interfaccia utente quando si tenta di creare, descrivere, aggiornare, interrompere o eliminare un lavoro del notebook. Potresti riscontrare questo problema anche con le definizioni dei lavori (lavori programmati). Per risolvere questo problema, annota innanzitutto il messaggio di errore visualizzato nell'interfaccia utente. Questo messaggio contiene spesso indicazioni o suggerimenti e azioni per risolvere il problema.
Se non riesci a risolvere l'errore, completa i seguenti passaggi:
- Fai uno screenshot dell'errore e poi salvalo come file immagine.
- Crea un file HTTP Archive (HAR) che acquisisca il traffico di rete quando si verifica l'errore dell'interfaccia utente.
- Vai al terminale del server Jupyter di SageMaker Studio. Scegli File, Nuovo, Terminale.
- Al momento dell'errore dell'interfaccia utente controlla la presenza di eccezioni, errori o avvisi nei log in /var/log/apps/app_container.log.
- Contatta il Supporto AWS tramite il Centro di supporto AWS. Nella tua richiesta, allega lo screenshot dell'errore, l'app_container.log e il file HAR.
Contenuto pertinente
- AWS UFFICIALEAggiornata 2 anni fa
- AWS UFFICIALEAggiornata 2 anni fa
- AWS UFFICIALEAggiornata 2 anni fa