Ir para o conteúdo

Como melhorar o desempenho e os tempos de resposta do Amazon Bedrock ao processar e recuperar dados em grande escala?

3 minuto de leitura
0

Quero melhorar o desempenho e os tempos de resposta do Amazon Bedrock ao processar e recuperar dados em grande escala.

Resolução

Você pode ter problemas de latência por um dos seguintes motivos:

  • Distância entre a aplicação e o endpoint do Amazon Bedrock
  • Modelos maiores que normalmente exigem mais tempo para serem processados
  • Tamanho e complexidade dos prompts
  • Grande volume de chamadas simultâneas de API

Para melhorar o desempenho e os tempos de resposta, execute as seguintes ações.

Escolha o modelo certo

Analise seus requisitos específicos e escolha o modelo que melhor atenda às suas necessidades em termos de velocidade e qualidade de saída.

Melhore seus prompts de entrada e do sistema

Reduza o número de tokens nos prompts de entrada e nos prompts do sistema. Se seu modelo tiver menos tokens para processar e gerar, o modelo gerará uma resposta mais rápida.

É uma prática recomendada usar prompts claros e concisos, modelos estruturados e técnicas de engenharia de prompts.

Use o armazenamento em cache de prompts

O armazenamento em cache de prompts é um atributo opcional que você pode usar para reduzir a resposta e a inferência do modelo no Amazon Bedrock. Adicione partes da sua conversa a um cache para que o modelo possa reutilizar o contexto.

Use parâmetros de inferência

Use parâmetros de inferência específicos para os modelos, como temperatura, para controlar e ajustar a geração de respostas. Esses parâmetros ajudam você a controlar o comprimento da saída.

Use inferência com latência otimizada

A inferência com latência otimizada para modelos básicos no Amazon Bedrock fornece tempos de resposta mais rápidos e melhor capacidade de resposta para aplicações de IA. Não é necessária nenhuma configuração adicional para acessar o recurso de otimização de latência. Defina o parâmetro Latência como Otimizada.

Use modelos menores

Modelos maiores, como o Anthropic Claude 2, normalmente têm maior latência, mas melhor qualidade. Em vez disso, é possível usar modelos menores que oferecem respostas mais rápidas com recursos reduzidos.

Selecione uma região mais próxima

Se o modelo estiver disponível na região da AWS, escolha uma região no Amazon Bedrock mais próxima de você.

Use APIs de streaming

As APIs InvokeModel e Converse precisam esperar até que todos os tokens de resposta sejam gerados antes de enviá-los de volta para você. Use as APIs InvokeModelWithResponseStream and ConverseStream porque essas APIs não esperam até que todos os tokens sejam gerados e retornem a resposta em um fluxo.

AWS OFICIALAtualizada há 9 meses