Ich möchte die Leistung und die Antwortzeiten von Amazon Bedrock verbessern, wenn ich umfangreiche Daten verarbeite und abrufe.
Lösung
Latenzprobleme können folgende Ursachen haben:
- Entfernung zwischen deiner Anwendung und dem Amazon-Bedrock-Endpunkt
- Größere Modelle, deren Verarbeitung in der Regel länger dauert
- Länge und Komplexität deiner Prompts
- Hohe Anzahl gleichzeitiger API-Aufrufe
Gehe wie folgt vor, um die Leistung und die Antwortzeiten zu verbessern.
Wähle das richtige Modell
Prüfe deine spezifischen Anforderungen und wähle dann das Modell aus, das deinen Anforderungen in Bezug auf Geschwindigkeit und Ergebnisqualität am besten entspricht.
Verbessere deine Eingabe- und System-Prompts
Reduziere die Anzahl der Token sowohl in deinen Eingabe-Prompts als auch in den System-Prompts. Wenn dein Modell weniger Token verarbeiten und erzeugen muss, generiert das Modell eine schnellere Antwort.
Es hat sich bewährt, klare und präzise Prompts, strukturierte Vorlagen und Prompt-Engineering-Techniken zu verwenden.
Prompt-Caching verwenden
Prompt-Caching ist ein optionales Feature, mit dem du Antwortzeiten und Modellinferenzen in Amazon Bedrock reduzieren kannst. Füge Teile deiner Konversation zu einem Cache hinzu, damit das Modell den Kontext wiederverwenden kann.
Inferenzparameter verwenden
Verwende modellspezifische Inferenzparameter wie die Temperatur, um die Antwortgenerierung zu steuern und zu optimieren. Mit diesen Parametern kannst du die Länge der Ausgabe steuern.
Verwende latenzoptimierte Inferenz
Die latenzoptimierte Inferenz für Basismodelle in Amazon Bedrock bietet schnellere Reaktionszeiten und eine verbesserte Reaktionsfähigkeit für KI-Anwendungen. Der Zugriff auf die Latenzoptimierungsfunktion ist ohne zusätzlichen Aufwand möglich. Stelle den Parameter Latenz auf Optimiert ein.
Verwende kleinere Modelle
Größere Modelle, wie Anthropic Claude 2, haben in der Regel eine höhere Latenz, bieten aber eine bessere Qualität. Stattdessen kannst du kleinere Modelle verwenden, die schnellere Antworten mit reduzierten Funktionen bieten.
Wähle eine näherliegende Region
Wenn das Modell in der AWS-Region verfügbar ist, wähle eine Region in Amazon Bedrock aus, die deinem Standort am nächsten liegt.
Verwende Streaming-APIs
Die APIs InvokeModel und Converse müssen warten, bis alle Antwort-Token generiert wurden, bevor sie die Token an dich zurücksenden. Verwende die APIs InvokeModelWithResponseStream und ConverseStream, da diese APIs nicht warten, bis alle Token generiert wurden, und die Antwort in einem Stream zurückgeben.