Direkt zum Inhalt

Wie kann ich die Liste der URLs anzeigen, die der von Amazon Bedrock bereitgestellte Web-Crawler zur Datenquelle hinzufügt?

Lesedauer: 1 Minute
0

Ich möchte die Liste der URLs anzeigen, die der Web-Crawler der Datenquelle in meiner Amazon Bedrock-Wissensdatenbank hinzufügt.

Kurzbeschreibung

Um die URLs anzuzeigen, die der Web-Crawler zur Datenquelle hinzufügt, musst du deiner Wissensdatenbank eine Option zur Protokollübermittlung hinzufügen, um die Protokolle der Erfassungsaufträge aufzuzeichnen. In den Erfassungsprotokollen werden URLs aufgezeichnet, die der Web-Crawler der Datenquelle hinzufügt. Nachdem du einen Erfassungsauftrag abgeschlossen hast, verwende Amazon CloudWatch Logs Insights, um die Protokolldaten zu analysieren.

Lösung

Führe die folgenden Schritte aus:

  1. Aktualisiere deine Wissensdatenbank, um CloudWatch Logs als Übermittlungsoption hinzuzufügen.
  2. Synchronisiere die Web-Crawler-Datenquelle.
  3. Wähle im Abschnitt Synchronisierungsverlauf die Zieldatenquelle aus und notiere dir dann die Erfassungsauftrags-ID.
  4. Öffne die CloudWatch-Konsole und wähle dann eine Protokollgruppe aus.
  5. Stelle den Zeitraum ein, in dem der Synchronisierungsauftrag ausgeführt wurde.
  6. Wähle In Logs Insights anzeigen aus und gib dann die folgende Abfrage ein:
    fields event.document_location.web_location.url | filter @message like 'IngestionJobId' and event.status like 'INDEXED'
    Hinweis: Ersetze IngestionJobId durch deine Erfassungsauftrags-ID.
  7. Wähle Abfrage ausführen, um die Liste der URLs anzuzeigen.
AWS OFFICIALAktualisiert vor 6 Monaten