Quero melhorar o desempenho e os tempos de resposta do Amazon Bedrock ao processar e recuperar dados em grande escala.
Resolução
Você pode ter problemas de latência por um dos seguintes motivos:
- Distância entre a aplicação e o endpoint do Amazon Bedrock
- Modelos maiores que normalmente exigem mais tempo para serem processados
- Tamanho e complexidade dos prompts
- Grande volume de chamadas simultâneas de API
Para melhorar o desempenho e os tempos de resposta, execute as seguintes ações.
Escolha o modelo certo
Analise seus requisitos específicos e escolha o modelo que melhor atenda às suas necessidades em termos de velocidade e qualidade de saída.
Melhore seus prompts de entrada e do sistema
Reduza o número de tokens nos prompts de entrada e nos prompts do sistema. Se seu modelo tiver menos tokens para processar e gerar, o modelo gerará uma resposta mais rápida.
É uma prática recomendada usar prompts claros e concisos, modelos estruturados e técnicas de engenharia de prompts.
Use o armazenamento em cache de prompts
O armazenamento em cache de prompts é um atributo opcional que você pode usar para reduzir a resposta e a inferência do modelo no Amazon Bedrock. Adicione partes da sua conversa a um cache para que o modelo possa reutilizar o contexto.
Use parâmetros de inferência
Use parâmetros de inferência específicos para os modelos, como temperatura, para controlar e ajustar a geração de respostas. Esses parâmetros ajudam você a controlar o comprimento da saída.
Use inferência com latência otimizada
A inferência com latência otimizada para modelos básicos no Amazon Bedrock fornece tempos de resposta mais rápidos e melhor capacidade de resposta para aplicações de IA. Não é necessária nenhuma configuração adicional para acessar o recurso de otimização de latência. Defina o parâmetro Latência como Otimizada.
Use modelos menores
Modelos maiores, como o Anthropic Claude 2, normalmente têm maior latência, mas melhor qualidade. Em vez disso, é possível usar modelos menores que oferecem respostas mais rápidas com recursos reduzidos.
Selecione uma região mais próxima
Se o modelo estiver disponível na região da AWS, escolha uma região no Amazon Bedrock mais próxima de você.
Use APIs de streaming
As APIs InvokeModel e Converse precisam esperar até que todos os tokens de resposta sejam gerados antes de enviá-los de volta para você. Use as APIs InvokeModelWithResponseStream and ConverseStream porque essas APIs não esperam até que todos os tokens sejam gerados e retornem a resposta em um fluxo.