Global outage event
If you're experiencing issues with your AWS services, then please refer to the AWS Health Dashboard. You can find the overall status of ongoing outages, the health of AWS services, and the latest updates from AWS engineers.
Come posso risolvere l'errore "ThrottlingException" quando utilizzo le risorse on demand di Amazon Bedrock?
Desidero risolvere l'errore "ThrottlingException" (codice di stato HTTP 429) che ricevo quando utilizzo le risorse on demand di Amazon Bedrock.
Breve descrizione
Quando superi le quote di servizio, Amazon Bedrock rifiuta le richieste.
Amazon Bedrock restituisce un errore "ThrottlingException" (codice di stato HTTP: 429) e ricevi uno dei seguenti messaggi di errore sul lato client:
- "Too many requests, please wait before trying again. You have sent too many requests. Wait before trying again."
- "Your request rate is too high. Reduce the frequency of requests."
- "Too many tokens, please wait before trying again."
Risoluzione
Nota: se ricevi errori quando esegui i comandi dell'Interfaccia della linea di comando AWS (AWS CLI), consulta Risoluzione degli errori per AWS CLI. Inoltre, assicurati di utilizzare la versione più recente di AWS CLI.
Monitora le quote di servizio AWS
Controlla le quote di servizio di Amazon Bedrock per assicurarti che non vengano superate. Controlla le metriche di Amazon CloudWatch con incrementi di 1 minuto per identificare i modelli di limitazione (della larghezza di banda della rete). Quando l'utilizzo supera le quote nelle ore di picco, potrebbe verificarsi una limitazione (della larghezza di banda della rete) anche con batch precedentemente riusciti. Per assicurarti che il volume di richieste dell'applicazione non superi le quote, monitora le metriche di runtime di Amazon Bedrock InputTokenCount e Invocations.
Alcuni modelli hanno quote separate per le richieste al minuto (RPM) e i token al minuto (TPM) che Amazon Bedrock applica contemporaneamente.
Le versioni dei modelli più recenti potrebbero avere quote diverse rispetto alle versioni precedenti.
Nota: la dashboard Service Quotas mostra solo le quote configurate, non l'utilizzo in tempo reale. Per monitorare l'utilizzo in tempo reale, utilizza CloudWatch.
Utilizza profili di inferenza multi-Regione
Utilizza profili di inferenza multi-Regione in modo da indirizzare dinamicamente il traffico su più Regioni AWS per una disponibilità ottimale per ogni richiesta e prestazioni migliori per periodi di utilizzo elevato. Ogni Regione mantiene pool di capacità indipendenti. Per evitare la limitazione (della larghezza di banda della rete) delle risorse nel pool di capacità di una Regione, distribuisci le richieste tra più Regioni.
Alcuni modelli, come Anthropic Claude 3.5 Sonnet, richiedono profili di inferenza multi-Regione in determinate Regioni. Modelli come Anthropic Claude 4.5 Sonnet offrono anche profili di inferenza globali che aiutano a gestire i picchi di traffico imprevisti.
Per ulteriori informazioni, consulta l'esempio di codice per l'inferenza multi-Regione in amazon-bedrock-workshop sul sito web GitHub.
Nota: per utilizzare un profilo di inferenza, devi utilizzare una Regione e un modello supportati da Amazon Bedrock.
Richiedi un aumento delle quote
I nuovi account AWS potrebbero avere quote iniziali inferiori a quelle predefinite. Alcuni modelli hanno quote fisse non modificabili. Se il traffico del carico di lavoro supera le quote on demand dell'account, contatta il Supporto AWS o l'amministratore dell'account per richiederne un aumento. AWS potrebbe modificare le quote predefinite in base ai modelli di utilizzo o ai requisiti del servizio.
Includi le seguenti informazioni nella richiesta:
- Nome della quota che desideri aumentare
- ID del modello
- Regione per l'aumento della quota
- Breve spiegazione del caso d'uso
- Utilizzo previsto, inclusi token e richieste stabili e di picco al minuto e token di input e output medi per richiesta
Utilizza il throughput assegnato
Se hai requisiti di throughput elevato, acquista un throughput assegnato.
Nota: l'utilizzo del throughput assegnato comporta un costo aggiuntivo. Per informazioni sui prezzi del throughput assegnato, consulta la sezione Modelli di prezzo in Prezzi di Amazon Bedrock.
Per ulteriori informazioni sull'utilizzo del throughput assegnato, consulta Usa un throughput assegnato con una risorsa Amazon Bedrock. Per utilizzare AWS CLI o SDK Python per creare un throughput assegnato, consulta Esempi di codice per il throughput assegnato.
Nota: prima di acquistare un throughput assegnato, assicurati di utilizzare una Regione e un modello supportati da Amazon Bedrock.
Aggiungi la ripetizione con il backoff esponenziale
Quando utilizzi la modalità on demand, Amazon Bedrock utilizza un pool di capacità condiviso tra più clienti. Durante i periodi di elevata richiesta di servizi, potresti riscontrare una riduzione delle risorse anche quando le richieste rientrano nelle quote dell'account. Inoltre, il servizio gestisce automaticamente l'allocazione della capacità tra tutti gli utenti.
È consigliabile utilizzare la ripetizione con backoff esponenziale il jitter casuale. Se utilizzi SDK AWS, consulta Comportamento di ripetizione.
Assicurati che il backoff della ripetizione duri 1 minuto intero quando raggiunge le quote al minuto. Sincronizza i tentativi di ripetizione con il ciclo di aggiornamento della quota di 60 secondi. Inoltre, distribuisci le richieste su più secondi in un periodo di 1 minuto.
Esempio di configurazione Python con modalità di ripetizione adattiva:
from botocore.config import Config config = Config( retries={ 'max_attempts': 10, # Default is 3 'mode': 'adaptive' } ) bedrock_runtime = boto3.client('bedrock-runtime', config=config)
Risolvi l'errore "ServiceUnavailable"
Si verifica un errore "ServiceUnavailable" (codice di stato HTTP 503) a causa di vincoli di capacità temporanei, non quote superate. Di solito l'errore si risolve automaticamente, ma potrebbe richiedere adeguamenti dell'architettura per i carichi di lavoro critici.
Controlla i log di AWS CloudTrail per verificare se ricevi un errore "ServiceUnavailable" con l'errore "ThrottlingException".
Se ricevi entrambi gli errori, intraprendi le seguenti azioni per risolvere l'errore "ServiceUnavailable":
- Consulta la Dashboard AWS Health per eventuali interruzioni del servizio.
- Implementa la ripetizione con backoff esponenziale e il jitter.
- Utilizza CloudWatch Logs per monitorare l'errore "ServiceUnavailable" separatamente dall'errore "ThrottlingException".
- Utilizza i profili di inferenza multi-Regione per distribuire il traffico verso altre Regioni quando una Regione non è disponibile.
Risolvi l'accelerazione imprevista quando non hai superato le quote
Se hai riscontrato un rallentamento e non hai superato le quote di servizio, intraprendi le seguenti azioni:
- Verifica lo stato del servizio Regionale.
- Contatta il Supporto AWS per risolvere i problemi relativi alle configurazioni specifiche dell'account.
- Lingua
- Italiano
Video correlati

