AWS announces preview of AWS Interconnect - multicloud
AWS announces AWS Interconnect – multicloud (preview), providing simple, resilient, high-speed private connections to other cloud service providers. AWS Interconnect - multicloud is easy to configure and provides high-speed, resilient connectivity with dedicated bandwidth, enabling customers to interconnect AWS networking services such as AWS Transit Gateway, AWS Cloud WAN, and Amazon VPC to other cloud service providers with ease.
Comment résoudre l’erreur "ThrottlingException" lorsque j'utilise des ressources à la demande Amazon Bedrock ?
Je souhaite résoudre l'erreur "ThrottlingException" (code de statut HTTP 429) qui s'affiche lorsque j'utilise des ressources à la demande Amazon Bedrock.
Brève description
Lorsque vous dépassez les quotas de service, Amazon Bedrock refuse vos requêtes.
Amazon Bedrock renvoie une erreur "ThrottlingException" (code de statut HTTP) : 429) et vous recevez l'un des messages d'erreur suivants côté client :
- "Too many requests, please wait before trying again. You have sent too many requests. Wait before trying again."
- "Your request rate is too high. Reduce the frequency of requests."
- "Too many tokens, please wait before trying again."
Résolution
Remarque : Si des erreurs surviennent lorsque vous exécutez des commandes de l'interface de la ligne de commande AWS (AWS CLI), consultez la section Résoudre des erreurs liées à l’AWS CLI. Vérifiez également que vous utilisez bien la version la plus récente de l'AWS CLI.
Surveiller vos quotas de services AWS
Examinez vos quotas de service Amazon Bedrock pour vous assurer de ne pas les dépasser. Vérifiez les métriques d'Amazon CloudWatch par incréments d'une minute pour identifier les modèles de limitation. Lorsque votre utilisation dépasse les quotas aux heures de pointe, une limitation peut se produire même avec des lots précédemment réussis. Pour vous assurer que le volume de requêtes de votre application ne dépasse pas les quotas, surveillez les métriques d'exécution Amazon Bedrock InputTokenCount et Invocations.
Certains modèles ont des quotas distincts pour les requêtes par minute (RPM) et les jetons par minute (TPM) qu'Amazon Bedrock applique simultanément.
Les nouvelles versions de modèles peuvent avoir des quotas différents de ceux des versions précédentes.
Remarque : Le tableau de bord Service Quotas affiche uniquement les quotas configurés, pas l'utilisation en temps réel. Pour surveiller l'utilisation en temps réel, utilisez CloudWatch.
Utiliser des profils d'inférence interrégionaux
Utilisez des profils d'inférence interrégionaux pour acheminer le trafic de manière dynamique entre plusieurs régions AWS afin d'optimiser la disponibilité pour chaque requête et de meilleures performances pendant les périodes de forte utilisation. Chaque région gère des groupes de capacités indépendants. Pour éviter de limiter le groupe de capacités d'une région, répartissez les requêtes entre plusieurs régions.
Certains modèles, tels que Anthropic Claude 3.5 Sonnet, nécessitent des profils d'inférence interrégionaux dans certaines régions.
Pour plus d'informations, consultez l'exemple de code relatif à l'interférence interrégionale sur la page amazon-bedrock-workshop sur le site Web de GitHub.
Remarque : Pour utiliser un profil d'inférence, vous devez utiliser une région et un modèle pris en charge par Amazon Bedrock.
Demander une augmentation de quota
Les quotas initiaux des nouveaux comptes peuvent être inférieurs aux quotas par défaut. Certains modèles ont des quotas fixes non ajustables. Si le trafic de votre charge de travail dépasse les quotas à la demande de votre compte, contactez AWS Support ou votre gestionnaire de compte pour demander une augmentation de quota. AWS peut ajuster les quotas par défaut en fonction des modèles d'utilisation ou des exigences de service.
Dans votre requête, incluez les informations suivantes :
- Le nom du quota que vous souhaitez augmenter
- L'identifiant du modèle
- La région pour l'augmentation du quota
- Brève explication de votre cas d'utilisation
- Votre utilisation prévue, y compris les jetons et les requêtes par minute à taux constant et de pointe, ainsi que la moyenne des jetons d'entrée et de sortie par requête.
Utiliser le débit provisionné
Si vous avez besoin d'un débit élevé, achetez la fonctionnalité Débit provisionné.
Remarque : L'utilisation du débit provisionné entraîne des frais supplémentaires. Pour plus d'informations sur la tarification du débit provisionné, consultez la section Modèles de tarification de la page Tarification d’Amazon Bedrock.
Pour plus d'informations sur la façon dont vous pouvez utiliser le débit provisionné, consultez la section Utiliser un débit provisionné avec une ressource Amazon Bedrock. Pour utiliser le débit provisionné avec l'AWS CLI ou le kit SDK Python, consultez la section Exemples de code pour le débit provisionné.
Remarque : Avant d'acheter la fonctionnalité Débit provisionné, assurez-vous d’utiliser une région et un modèle pris en charge par Amazon Bedrock.
Ajouter de nouvelles tentatives avec backoff exponentiel
Lorsque vous utilisez le mode à la demande, Amazon Bedrock utilise un groupe de capacités partagé entre plusieurs clients. Pendant les périodes de forte demande de service, vous pouvez subir une limitation du débit, même lorsque vos requêtes ne dépassent pas les quotas de votre compte. En outre, le service gère automatiquement l'allocation de capacité entre tous les utilisateurs.
Il est recommandé d'utiliser de nouvelles tentatives avec backoff exponentiel et une gigue aléatoire. Si vous utilisez des kits SDK AWS, consultez la section Comportement de nouvelle tentative.
Assurez-vous que la nouvelle tentative avec backoff dure 1 minute complète lorsqu'elle atteint les quotas par minute. Synchronisez vos nouvelles tentatives avec le cycle d'actualisation de quotas de 60 secondes. Répartissez également vos requêtes sur plusieurs secondes sur une période d'une minute.
Exemple de configuration Python avec mode de nouvelle tentative adaptatif :
from botocore.config import Config config = Config( retries={ 'max_attempts': 10, # Default is 3 'mode': 'adaptive' } ) bedrock_runtime = boto3.client('bedrock-runtime', config=config)
Résoudre l'erreur "ServiceUnavailable"
Une erreur "ServiceUnavailableException" (code de statut HTTP 503) se produit en raison de contraintes de capacité temporaires, mais de quotas non dépassés. Cette erreur est généralement résolue automatiquement, mais peut nécessiter des ajustements de l'architecture pour les charges de travail critiques.
Consultez vos journaux AWS CloudTrail pour vérifier si vous recevez une erreur "ServiceUnavailable" avec l’erreur "ThrottlingException".
Si vous recevez les deux erreurs, effectuez les actions suivantes pour résoudre l’erreur "ServiceUnavailableException" :
- Consultez le tableau de bord AWS Health pour connaître les interruptions de service.
- Implémentez les nouvelles tentatives avec backoff exponentiel et gigue.
- Utilisez CloudWatch Logs pour surveiller l'erreur "ServiceUnavailableException" séparément de l'erreur "ThrottlingException".
- Utilisez des profils d'inférence interrégionaux pour répartir le trafic vers d'autres régions lorsqu'une région n'est pas disponible.
Résoudre les problèmes de limitation inattendus lorsque vous n'avez pas dépassé les quotas
Si vous avez subi une limitation de débit et que vous n'avez pas dépassé les quotas de service, procédez comme suit :
- Vérifiez l'état du service régional.
- Contactez AWS Support pour résoudre les problèmes de configuration spécifiques au compte.
- Balises
- Amazon Bedrock
- Langue
- Français
Vidéos associées


Contenus pertinents
- demandé il y a 2 ans
- demandé il y a un an
- Réponse acceptéedemandé il y a un an
- demandé il y a 6 mois
AWS OFFICIELA mis à jour il y a 6 mois