スキップしてコンテンツを表示

Amazon Bedrock ナレッジベースの検索結果と検索精度を改善する方法を教えてください。

所要時間1分
0

Amazon Bedrock ナレッジベースの検索結果の精度を改善したいです。

解決策

基盤モデルを使用して文書を解析する

ドキュメントが複雑だったり、構造化されていなかったり、ドメイン固有の用語が含まれている場合は、基盤モデルを使用してドキュメントを解析することをおすすめします。基盤モデルでは、ネストしたテーブル、画像内のテキスト、テキストの視覚表現など、ドキュメント内の複雑なデータの検索が改善されます。基盤モデルによる文書の解析方法をカスタマイズするには、文書構造、ドメイン、またはユースケースに応じた指示を出してください。

高度なチャンク戦略を使用する

セマンティックチャンクまたは階層型チャンクを使用すると、検索拡張生成 (RAG) のパフォーマンスが向上します。

法的文書や技術マニュアルなど、文脈上の境界が明確でない文書にはセマンティックチャンクを使用してください。セマンティックチャンクでは、情報の抽出と操作における正確性が向上します。

注: セマンティックチャンクを使用すると、追加コストが発生します。コストは、保有しているデータ量に左右されます。料金の詳細については、「Amazon Bedrock の料金」を参照してください。

技術文書などの入れ子構造を含む複雑な文書や、複雑な書式や入れ子のテーブルを使用している学術論文には、階層型チャンクを使用してください。階層型チャンクでは、大規模な文書で効果的に検索、移動することができます。基盤モデルを使用してデータを解析してから、階層的チャンキングを使用すると、生成される応答の精度が向上します。

RAG アプリケーションの要件に合わせてチャンク処理をカスタマイズするには、カスタム AWS Lambda 関数を使用します。

メタデータをフィルターする

.csv ファイルを使用して、データソースにメタデータを含めます。必要なファイル数を減らし、データ管理を改善するには、列を使用してコンテンツフィールドとメタデータフィールドを指定します。サイズの大きい .csv ファイルのデータセットには、この機能を使用することをおすすめします。

文書のフィールドまたは属性にフィルターを追加すると、回答の関連性が向上します。データソースにドキュメントのメタデータ属性またはフィールドを含め、埋め込むフィールドをフィルターしたり指定したりできます。詳細については、「Amazon Bedrock ナレッジベースでメタデータのフィルターがサポートされるようになり、取得の精度が向上しました」を参照してください。

クエリをカスタマイズする

複雑なクエリを小さく、扱いやすいサブクエリに変更します。クエリ分解を使用すると、Amazon Bedrock はナレッジベースに複数のクエリを実行します。クエリを変更するには、「クエリと応答生成の設定とカスタマイズ」の [クエリの変更] タブを参照してください。

デフォルトでは、Amazon Bedrock はナレッジベースをクエリすると、ソースチャンクに対応する結果を最大 5 件返します。検索結果を改善するには、Amazon Bedrock が返すソースチャンクの数を増やしてください。ソースチャンクの数を増やす方法については、「クエリと応答生成の設定とカスタマイズ」の [ソースチャンクの数] タブを参照してください。

ハイブリッド検索を使用する

ハイブリッド検索を使用すると、マルチ検索アルゴリズム機能を実現できます。セマンティック検索では、テキストの意味に基づいて回答を行います。ただし、関連するキーワードをすべてキャプチャすることはできず、テキストの意味を表すために埋め込んだ単語の品質に依存します。ハイブリッド検索では、セマンティック検索とキーワード検索を組み合わせて検索結果を改善します。

リランカーモデルを使用する

リランカーモデルを使用すると、Amazon Bedrock が取得する結果の関連性が向上します。

AWS公式更新しました 6ヶ月前
コメントはありません

関連するコンテンツ