スキップしてコンテンツを表示

Amazon Bedrock の Web Crawler がデータソースに追加した URL のリストを確認する方法を教えてください。

所要時間1分
0

Web Crawler が Amazon Bedrock ナレッジベースのデータソースに追加した URL のリストを確認したいです。

簡単な説明

Web Crawler がデータソースに追加する URL を確認するには、取り込みジョブのログを記録するログ配信オプションをナレッジベースに追加する必要があります。取り込みログには、Web Crawler がデータソースに追加する URL が記録されます。取り込みジョブの完了後、Amazon CloudWatch Logs Insights を使用してログデータを分析します。

解決策

次の手順を実行します。

  1. ナレッジベースを更新し、配信オプションとして CloudWatch Logs を追加します
  2. Web Crawler のデータソースを同期します
  3. [同期履歴] セクションでターゲットのデータソースを選択し、取り込みジョブ ID を書き留めます。
  4. CloudWatch コンソールを開き、ロググループを選択します。
  5. 同期ジョブが実行された時間範囲を設定します。
  6. [Logs Insights に表示] を選択し、次のクエリを入力します。
    fields event.document_location.web_location.url | filter @message like 'IngestionJobId' and event.status like 'INDEXED'
    注: IngestionJobId を実際の取り込みジョブ ID に置き換えます。
  7. [クエリの実行] を選択すると URL のリストが表示されます。
AWS公式更新しました 6ヶ月前
コメントはありません

関連するコンテンツ