スキップしてコンテンツを表示

Amazon Bedrock エージェントでの遅延をトラブルシューティングし、パフォーマンスを最適化する方法を教えてください。

所要時間1分
0

Amazon Bedrock Agents における遅延の増加をトラブルシューティングし、パフォーマンスを最適化したいです。

簡単な説明

Amazon Bedrock エージェントは推論機能を使用して情報をナレッジベースから取得します。この動作は、遅延増加を引き起こす可能性があります。Amazon Bedrock エージェントの応答時間には、次の要因が影響します。

  • モデルのサイズ
  • プロンプトの構造と複雑さ
  • 入力トークンと出力トークンの数
  • ネットワーク接続と AWS リージョナルインフラストラクチャ

解決策

エージェントの遅延のトラブルシューティング

モデルサイズを更新する

大規模な基盤モデルを使用しており、遅延が増加した場合は、遅延に影響を受けるユースケースでは軽量のモデルを使用してください。呼び出しの遅延は、入力トークンと出力トークンの合計数に応じて増減します。ユーザークエリに対し、明確で短い応答を返すようエージェントに指示すると、出力トークンのサイズを縮小できます。

注: Amazon Bedrock は、Amazon CloudWatch 内の Bedrock に呼び出し遅延メトリクスを自動で発行します。詳細については、「Amazon Bedrock のパフォーマンスを監視する」を参照してください。

オーケストレーション戦略の見直し

モデル呼び出し数の増加に伴い、遅延も増加します。エージェントの指示および、関数とパラメータを効率的に定義したことを確認してください。応答が低速かつ、ユースケースではオーケストレーション機能が不要な場合は、オーケストレーションを無効にすると遅延を削減できます。前処理、オーケストレーション、後処理などの機能は、処理時間の増加を引き起こす可能性があります。

オーケストレーションテンプレートを無効にするには、次の手順を実行します。

  1. エージェントをデプロイした AWS リージョンで Amazon Bedrock コンソールを開きます。
  2. ナビゲーションペインで [ビルダーツール] を展開し、[エージェント] を選択します。
  3. 目的のエージェントを選択し、[エージェントビルダーで編集] を選択します。
  4. [オーケストレーション戦略の詳細] セクションで [編集] を選択します。
  5. [前処理] タブを選択し、[前処理テンプレートを有効にする] を無効にします。
  6. [後処理] タブを選択し、[後処理テンプレートを有効にする] を無効にします。
  7. [保存して終了] を選択します。

カスタムオーケストレーションを使用する場合は、オーケストレーションでパフォーマンスを最適化するための設定を行ってください。指示を明確に行うようにしてください。冗長な指示や曖昧な指示が含まれる場合、モデルの認知負荷が増加し、応答時間が影響を受ける可能性があります。

Amazon Bedrock のネットワーク構成を確認する

仮想プライベートクラウド (VPC) で AWS Lambda を使用しており、Amazon Bedrock とのネットワーク通信が遅い場合、トラフィックはパブリックインターネット経由でルーティングされている可能性があります。この問題を解決するには、AWS PrivateLink を使用して Amazon Bedrock へのプライベートアクセスを設定します。

CRIS を有効化する

リージョンに対する需要が高い時期に遅延が発生した場合、リージョン固有のボトルネックが発生する可能性があります。この問題を解決するには、クロスリージョン推論 (CRIS) を使用してスループットを向上させ、推論ワークロードを複数のリージョンに分散します。

エージェントのパフォーマンスを最適化する

ストリーミング応答を有効にする

出力のトークン数が多い場合、ユーザーは応答が完成するまで待つ必要があります。トークン数が大量かどうかを確認するには、CloudWatch で OutputTokenCount メトリクスを参照します。ストリーミング応答を有効にするには、コンテンツが生成に合わせて到達できるようにするために、InvokeModelWithResponseStream API を使用します。

ナレッジベースを設定する

返されるドキュメントチャンク数を制限しない場合、応答の生成時間は増加します。この問題を解決するには、numberOfResults パラメータを指定し、ナレッジベースから取得するドキュメントチャンク数を制限します。

関連情報

CloudWatch Logs と Amazon S3 を使用してモデル呼び出しを監視する

AWS公式更新しました 3ヶ月前
コメントはありません

関連するコンテンツ