Passer au contenu

Comment résoudre les problèmes de latence et optimiser les performances des agents Amazon Bedrock ?

Lecture de 4 minute(s)
0

Je souhaite résoudre les problèmes liés à la latence élevée des agents Amazon Bedrock et optimiser ses performances.

Brève description

Les agents Amazon Bedrock utilisent des capacités de raisonnement pour extraire des informations des bases de connaissances, ce qui peut entraîner une latence élevée. Les facteurs suivants influencent les temps de réponse des agents Amazon Bedrock :

  • Taille du modèle
  • Structure rapide et complexité
  • Nombre de jetons d'entrée et de sortie
  • Connectivité réseau et infrastructure régionale AWS

Résolution

Résoudre les problèmes de latence de l'agent

Mettre à jour la taille de votre modèle

Si vous utilisez des modèles de base de grande taille et que vous rencontrez une latence plus élevée, utilisez des modèles plus légers pour les cas d'utilisation sensibles à la latence. La latence d'invocation évolue en fonction du nombre combiné de jetons d'entrée et de sortie. Pour réduire la taille des jetons de sortie, vous pouvez fournir des instructions à votre agent afin qu'il fournisse des réponses claires et courtes aux requêtes utilisateur.

Remarque : Amazon Bedrock publie automatiquement la métrique de latence d'invocation sous Bedrock dans Amazon CloudWatch. Pour plus d'informations, consultez la section Surveillance des performances d'Amazon Bedrock.

Examiner vos stratégies d'orchestration

À mesure que le nombre d'invocations de modèles augmente, la latence augmente également. Assurez-vous de définir efficacement les instructions de votre agent ainsi que vos fonctions et paramètres. Si vous recevez des réponses lentes et que vos cas d'utilisation ne nécessitent pas de fonctionnalités d'orchestration, désactivez l'orchestration pour réduire la latence. Des fonctionnalités telles que le prétraitement, l'orchestration et le post-traitement peuvent entraîner un délai de traitement supplémentaire.

Pour désactiver les modèles d'orchestration, procédez comme suit :

  1. Ouvrez la console Amazon Bedrock dans la région AWS où votre agent est déployé.
  2. Dans le volet de navigation, développez les outils Builder et choisissez Agents.
  3. Sélectionnez l'agent, puis choisissez Modifier dans Agent Builder.
  4. Dans la section Détails de la stratégie d'orchestration, choisissez Modifier.
  5. Choisissez l'onglet Prétraitement et désactivez Activer le modèle de prétraitement.
  6. Choisissez l'onglet Post-traitement et désactivez Activer le modèle de post-traitement.
  7. Choisissez Enregistrer et quitter.

Si vous utilisez une orchestration personnalisée, configurez-la pour optimiser les performances. Fournissez des instructions claires. Si vous incluez des instructions redondantes ou ambiguës, vous risquez d'augmenter la charge cognitive du modèle et d'affecter le temps de réponse.

Vérifier la configuration du réseau Amazon Bedrock

Si vous utilisez AWS Lambda avec un cloud privé virtuel (VPC) et que vous rencontrez des interactions réseau lentes avec Amazon Bedrock, le trafic peut être acheminé via l'Internet public. Pour résoudre ce problème, utilisez AWS PrivateLink pour configurer un accès privé à Amazon Bedrock.

Activer CRIS

Si vous rencontrez une latence pendant les périodes de forte demande régionale, vous risquez de rencontrer un goulot d'étranglement régional. Pour résoudre ce problème, augmentez le débit grâce à l'inférence interrégionale (CRIS) afin de répartir les charges de travail d'inférence entre plusieurs régions.

Optimiser les performances de l’agent

Activer les réponses en flux

Si vos sorties comptent un nombre élevé de jetons, les utilisateurs doivent attendre la réponse complète. Pour vérifier si votre nombre de jetons est élevé, utilisez la métrique OutputTokenCount dans CloudWatch. Pour activer les réponses en streaming, utilisez l'API InvokeModelWithResponseStream afin que le contenu arrive au fur et à mesure de sa génération.

Configurer votre base de connaissances

Si vous ne limitez pas le nombre de segments de document renvoyés, le temps de génération des réponses augmente. Pour résoudre ce problème, utilisez le paramètre numberOfResults pour limiter le nombre de segments de document extraits de votre base de connaissances.

Informations connexes

Surveiller l'invocation des modèles à l'aide de CloudWatch Logs et Amazon S3

AWS OFFICIELA mis à jour il y a 7 mois