Salta al contenuto

Come posso risolvere i problemi di latenza e ottimizzare le prestazioni degli Agenti Amazon Bedrock?

4 minuti di lettura
0

Desidero risolvere i problemi relativi alla latenza elevata degli Agenti Amazon Bedrock e ottimizzarne le prestazioni.

Breve descrizione

Gli Agenti Amazon Bedrock utilizzano funzionalità di ragionamento per recuperare informazioni dalle knowledge base che potrebbero comportare una latenza elevata. Sui tempi di risposta degli Agenti Amazon Bedrock influiscono i seguenti fattori:

  • Dimensioni del modello
  • Struttura e complessità del prompt
  • Numero di token di input e output
  • Connettività di rete e infrastruttura Regionale AWS

Risoluzione

Risolvi i problemi relativi alla latenza dell'agente

Aggiorna le dimensioni del modello

Se utilizzi modelli di fondazione di grandi dimensioni e riscontri una latenza più elevata, utilizza modelli più leggeri per i casi d'uso sensibili alla latenza. La latenza di invocazione scala in base al numero combinato di token di input e output. Per ridurre le dimensioni dei token di output, puoi fornire istruzioni all'agente in modo che dia risposte chiare e brevi alle query dell'utente.

Nota: Amazon Bedrock pubblica automaticamente la metrica Invocation Latency alla voce Bedrock in Amazon CloudWatch. Per ulteriori informazioni, consulta Monitoraggio delle prestazioni di Amazon Bedrock.

Rivedi le strategie di orchestrazione

Con l'aumentare del numero di invocazioni del modello, aumenta anche la latenza. Assicurati di definire in modo efficiente le istruzioni dell'agente, nonché le funzioni e i parametri. Se ricevi risposte lente e i casi d'uso non richiedono funzionalità di orchestrazione, disattiva l'orchestrazione per ridurre la latenza. Funzionalità come la pre-elaborazione, l'orchestrazione e la post-elaborazione potrebbero introdurre tempi di elaborazione aggiuntivi.

Per disattivare i modelli di orchestrazione, completa i seguenti passaggi:

  1. Apri la console Amazon Bedrock nella Regione AWS in cui è distribuito l'agente.
  2. Nel pannello di navigazione, espandi gli strumenti Builder, quindi scegli Agents (Agenti).
  3. Seleziona l'agente, quindi scegli Edit in Agent Builder (Modifica in Builder Agenti).
  4. Nella sezione Orchestration strategy details (Dettagli della strategia di orchestrazione), scegli Edit (Modifica).
  5. Scegli la scheda Pre-processing (Pre-elaborazione) e disattiva Activate pre-processing template (Attiva modello di pre-elaborazione).
  6. Scegli la scheda Post-processing (Post-elaborazione) e disattiva Activate post-processing template (Attiva modello di post-elaborazione).
  7. Scegli Save and exit (Salva ed esci).

Se utilizzi un'orchestrazione personalizzata, configura l'orchestrazione per ottimizzare le prestazioni. Fornisci istruzioni chiare. Se includi istruzioni ridondanti o ambigue, potresti aumentare il carico cognitivo del modello e incidere sui tempi di risposta.

Verifica la configurazione di rete di Amazon Bedrock

Se utilizzi AWS Lambda con un cloud privato virtuale (VPC) e le interazioni di rete con Amazon Bedrock sono lente, il traffico potrebbe passare attraverso la rete Internet pubblica. Per risolvere il problema, utilizza AWS PrivateLink per configurare l'accesso privato ad Amazon Bedrock.

Attiva CRIS

Se si verifica una latenza durante i periodi di domanda Regionale elevata, potresti essere incappato in un collo di bottiglia Regionale. Per risolvere il problema, aumenta il throughput con l'inferenza multi-Regione (CRIS) per distribuire i carichi di lavoro di inferenza su più Regioni.

Ottimizza le prestazioni dell'agente

Attiva le risposte in streaming

Se gli output hanno un numero elevato di token, gli utenti devono attendere la risposta completa. Per verificare se hai un numero elevato di token, utilizza la metrica OutputTokenCount in CloudWatch. Per attivare le risposte in streaming, utilizza l'API InvokeModelWithResponseStream in modo che i contenuti arrivino man mano che vengono generati.

Configura la knowledge base

Se non limiti il numero di blocchi di documenti restituiti, il tempo di generazione delle risposte aumenta. Per risolvere il problema, utilizza il parametro numberOfResults per limitare il numero di blocchi di documenti recuperati dalla knowledge base.

Informazioni correlate

Monitora l'invocazione del modello utilizzando CloudWatch Logs e Amazon S3

AWS UFFICIALEAggiornata 6 mesi fa