Wie behebe ich Latenzprobleme und optimiere die Leistung von Amazon Bedrock Agents?
Ich möchte die hohe Latenz von Amazon Bedrock Agents beheben und die Leistung optimieren.
Kurzbeschreibung
Amazon Bedrock Agents verwenden Argumentationsfunktionen, um Informationen aus Wissensdatenbanken abzurufen, was zu einer hohen Latenz führen kann. Die folgenden Faktoren beeinflussen die Reaktionszeiten von Amazon Bedrock Agents:
- Modellgröße
- Prompt-Struktur und -Komplexität
- Anzahl der Eingabe- und Ausgabetokens
- Netzwerkkonnektivität und regionale AWS-Infrastruktur
Lösung
Agent-Latenz beheben
Aktualisiere deine Modellgröße
Wenn du große Basismodelle verwendest und eine höhere Latenz feststellst, verwende leichtere Modelle für latenzempfindliche Anwendungsfälle. Die Aufruflatenz skaliert mit der kombinierten Anzahl von Eingabe- und Ausgabetokens. Um die Größe der Ausgabetokens zu reduzieren, kannst du deinem Agent Anweisungen geben, um klare und kurze Antworten auf Benutzerabfragen zu geben.
Hinweis: Amazon Bedrock veröffentlicht automatisch die Metrik für die Aufruflatenz unter Bedrock in Amazon CloudWatch. Weitere Informationen findest du unter Überwachen der Leistung von Amazon Bedrock.
Überprüfe deine Orchestrierungsstrategien
Mit zunehmender Anzahl von Modellaufrufen steigt auch die Latenz. Stelle sicher, dass du die Anweisungen deines Agents sowie deine Funktionen und Parameter effizient definierst. Wenn du langsame Antworten erhältst und deine Anwendungsfälle keine Orchestrierungsfunktionen benötigen, deaktiviere die Orchestrierung, um die Latenz zu reduzieren. Funktionen wie Vorverarbeitung, Orchestrierung und Nachbearbeitung können zu zusätzlicher Verarbeitungszeit führen.
Gehe wie folgt vor, um die Orchestrierungsvorlagen zu deaktivieren:
- Öffne die Amazon Bedrock-Konsole in der AWS-Region, in der dein Agent bereitgestellt wird.
- Erweitere im Navigationsbereich die Builder-Tools und wähle Agents aus.
- Wähle den Agent und dann In Agent Builder bearbeiten aus.
- Wähle im Abschnitt Details zur Orchestrierungsstrategie die Option Bearbeiten aus.
- Wähle die Registerkarte Vorverarbeitung aus und deaktiviere die Option Vorverarbeitungsvorlage aktivieren.
- Wähle die Registerkarte Nachbearbeitung aus und deaktiviere die Option Nachbearbeitungsvorlage aktivieren.
- Wähle Speichern und beenden aus.
Wenn du eine benutzerdefinierte Orchestrierung verwendest, konfiguriere die Orchestrierung, um die Leistung zu optimieren. Gib klare Anweisungen. Wenn du redundante oder mehrdeutige Anweisungen gibst, erhöhst du möglicherweise die kognitive Belastung des Modells und beeinträchtigst die Reaktionszeit.
Überprüfe die Amazon Bedrock-Netzwerkkonfiguration
Wenn du AWS Lambda mit einer Virtual Private Cloud (VPC) verwendest und langsame Netzwerkinteraktionen mit Amazon Bedrock feststellst, wird der Datenverkehr möglicherweise über das öffentliche Internet geleitet. Um dieses Problem zu lösen, verwende AWS PrivateLink, um den privaten Zugriff auf Amazon Bedrock einzurichten.
CRIS aktivieren
Wenn in Zeiten hoher regionaler Nachfrage Latenz auftritt, kann es zu einem regionalen Engpass kommen. Um dieses Problem zu lösen, erhöhe den Durchsatz mit regionsübergreifender Inferenz (cross-Region inference, CRIS), um die Inferenz-Workloads auf mehrere Regionen zu verteilen.
Optimiere die Agent-Leistung
Aktiviere die Streaming-Antworten
Wenn deine Ausgaben eine hohe Anzahl von Token aufweisen, müssen die Benutzer auf die vollständige Antwort warten. Verwende die OutputTokenCount-Metrik in CloudWatch, um zu überprüfen, ob du eine hohe Anzahl von Token hast. Um Streaming-Antworten zu aktivieren, verwende die InvokeModelWithResponseStream-API, damit der Inhalt bei der Generierung ankommt.
Konfiguriere deine Wissensdatenbank
Wenn du die Anzahl der zurückgegebenen Dokumentblöcke nicht einschränkst, verlängert sich die Zeit für die Generierung der Antwort. Um dieses Problem zu beheben, verwende den NumberOfResults-Parameter, um die Anzahl der Dokumentblöcke zu begrenzen, die aus deiner Wissensdatenbank abgerufen werden.
Ähnliche Informationen
Überwache den Modellaufruf mithilfe von CloudWatch-Protokollen und Amazon S3
- Tags
- Amazon Bedrock
- Sprache
- Deutsch

Relevanter Inhalt
AWS OFFICIALAktualisiert vor 6 Monaten
AWS OFFICIALAktualisiert vor 5 Monaten