我想在处理和检索大规模数据时提高 Amazon Bedrock 的性能并缩短响应时间。
解决方法
您可能会因以下原因之一遇到延迟问题:
- 您的应用程序与 Amazon Bedrock 端点之间的距离
- 通常需要更多处理时间的较大模型
- 提示的长度和复杂性
- 大量同步 API 调用
要提高性能并缩短响应时间,请执行以下操作。
选择正确的模型
查看您的具体要求,然后选择在速度和输出质量方面最适合您的需求的模型。
优化您的输入提示和系统提示
减少输入提示和系统提示中的令牌数量。如果您的模型需要处理和生成的令牌较少,则模型生成响应的速度会更快。
最佳做法是使用清晰简洁的提示、结构化模板以及提示工程技术。
使用提示缓存
提示缓存是一项可选功能,可用于减少 Amazon Bedrock 中的响应和模型推理。将对话的部分内容添加到缓存中,以便模型可以重复使用上下文。
使用推理参数
使用特定于模型的推理参数(例如温度)来控制和调整响应生成。这些参数有助于控制输出的长度。
使用延迟优化推理
Amazon Bedrock 中基础模型的延迟优化推理可为 AI 应用程序提供更快的响应时间和更好的响应能力。无需进行额外设置即可访问延迟优化功能。请将 Latency(延迟)参数设置为 Optimized(已优化)。
使用较小的模型
较大的模型(例如 Anthropic Claude 2)通常具有更高的延迟,但能提供更好的质量。相反,您可以使用较小的模型,这些模型可提供更快的响应,但功能有所降低。
选择更近的区域
如果模型在 AWS 区域中可用,请在 Amazon Bedrock 中选择一个距离您最近的区域。
使用流式传输 API
InvokeModel 和 Converse API 必须等到所有响应令牌生成后才能将令牌发送给您。请使用 InvokeModelWithResponseStream 和 ConverseStream API,因为这些 API 不会等到所有令牌生成,而是会以流形式返回响应。