跳至内容

如何在处理和检索大规模数据时提高 Amazon Bedrock 的性能并缩短响应时间?

1 分钟阅读
0

我想在处理和检索大规模数据时提高 Amazon Bedrock 的性能并缩短响应时间。

解决方法

您可能会因以下原因之一遇到延迟问题:

  • 您的应用程序与 Amazon Bedrock 端点之间的距离
  • 通常需要更多处理时间的较大模型
  • 提示的长度和复杂性
  • 大量同步 API 调用

要提高性能并缩短响应时间,请执行以下操作。

选择正确的模型

查看您的具体要求,然后选择在速度和输出质量方面最适合您的需求的模型。

优化您的输入提示和系统提示

减少输入提示和系统提示中的令牌数量。如果您的模型需要处理和生成的令牌较少,则模型生成响应的速度会更快。

最佳做法是使用清晰简洁的提示、结构化模板以及提示工程技术

使用提示缓存

提示缓存是一项可选功能,可用于减少 Amazon Bedrock 中的响应和模型推理。将对话的部分内容添加到缓存中,以便模型可以重复使用上下文。

使用推理参数

使用特定于模型的推理参数(例如温度)来控制和调整响应生成。这些参数有助于控制输出的长度。

使用延迟优化推理

Amazon Bedrock 中基础模型的延迟优化推理可为 AI 应用程序提供更快的响应时间和更好的响应能力。无需进行额外设置即可访问延迟优化功能。请将 Latency(延迟)参数设置为 Optimized(已优化)。

使用较小的模型

较大的模型(例如 Anthropic Claude 2)通常具有更高的延迟,但能提供更好的质量。相反,您可以使用较小的模型,这些模型可提供更快的响应,但功能有所降低。

选择更近的区域

如果模型在 AWS 区域中可用,请在 Amazon Bedrock 中选择一个距离您最近的区域。

使用流式传输 API

InvokeModelConverse API 必须等到所有响应令牌生成后才能将令牌发送给您。请使用 InvokeModelWithResponseStreamConverseStream API,因为这些 API 不会等到所有令牌生成,而是会以流形式返回响应。

AWS 官方已更新 8 个月前