Ich möchte die Liste der URLs anzeigen, die der Web-Crawler der Datenquelle in meiner Amazon Bedrock-Wissensdatenbank hinzufügt.
Kurzbeschreibung
Um die URLs anzuzeigen, die der Web-Crawler zur Datenquelle hinzufügt, musst du deiner Wissensdatenbank eine Option zur Protokollübermittlung hinzufügen, um die Protokolle der Erfassungsaufträge aufzuzeichnen. In den Erfassungsprotokollen werden URLs aufgezeichnet, die der Web-Crawler der Datenquelle hinzufügt. Nachdem du einen Erfassungsauftrag abgeschlossen hast, verwende Amazon CloudWatch Logs Insights, um die Protokolldaten zu analysieren.
Lösung
Führe die folgenden Schritte aus:
- Aktualisiere deine Wissensdatenbank, um CloudWatch Logs als Übermittlungsoption hinzuzufügen.
- Synchronisiere die Web-Crawler-Datenquelle.
- Wähle im Abschnitt Synchronisierungsverlauf die Zieldatenquelle aus und notiere dir dann die Erfassungsauftrags-ID.
- Öffne die CloudWatch-Konsole und wähle dann eine Protokollgruppe aus.
- Stelle den Zeitraum ein, in dem der Synchronisierungsauftrag ausgeführt wurde.
- Wähle In Logs Insights anzeigen aus und gib dann die folgende Abfrage ein:
fields event.document_location.web_location.url | filter @message like 'IngestionJobId' and event.status like 'INDEXED'
Hinweis: Ersetze IngestionJobId durch deine Erfassungsauftrags-ID.
- Wähle Abfrage ausführen, um die Liste der URLs anzuzeigen.