New user sign up using AWS Builder ID
New user sign up using AWS Builder ID is currently unavailable on re:Post. To sign up, please use the AWS Management Console instead.
Warum klassifiziert der AWS Glue-Crawler meine Datendatei mit fester Breite als UNKNOWN (UNBEKANNT), wenn ich einen integrierten Klassifikator verwende, um die Datei zu analysieren?
Wenn ich eine .dat-Datei mit fester Breite mit einem integrierten Klassifikator analysiere, klassifiziert mein AWS Glue-Crawler die Datei als UNKNOWN (UNBEKANNT).
Kurzbeschreibung
Integrierte Klassifikatoren können Datendateien mit fester Breite nicht analysieren. Verwenden Sie stattdessen einen benutzerdefinierten Grok-Klassifikator.
Lösung
Erstellen des benutzerdefinierten Grok-Klassifikators
Führen Sie die folgenden Schritte aus.
-
Öffnen Sie die AWS-Glue-Konsole.
-
Wählen Sie im Navigationsbereich die Option Classifiers (Klassifikatoren) aus.
-
Wählen Sie Add classifier (Klassifikator hinzufügen) aus, und geben Sie dann Folgendes ein:
Geben Sie als Classifier name (Klassifikatorname) einen eindeutigen Namen ein.
Wählen Sie als Classifier type (Klassifikatortyp) die Option Grok aus.
Geben Sie unter Classification (Klassifizierung) eine Beschreibung des Formats oder Typs der Daten ein, die Sie klassifizieren.
Geben Sie als Grok pattern (Grok-Muster) die integrierten Muster ein, die AWS Glue verwenden soll, um Übereinstimmungen in Ihren Daten zu finden. Um eine .dat-Datei zu analysieren, benötigen Sie kein Trennzeichen zwischen Feldern. Da jedes Feld eine bekannte Länge hat, verwenden Sie ein Regex-Muster, um Übereinstimmungen zu finden.Beispiel:
(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})
(Optional) Geben Sie unter Benutzerdefinierte Muster alle benutzerdefinierten Muster ein, die Sie verwenden möchten. Diese Muster werden durch das Grok-Muster referenziert, das Ihre Daten klassifiziert. Jedes benutzerdefinierte Muster muss sich in einer separaten Zeile befinden. Weitere Informationen finden Sie unter Benutzerdefinierte Grok-Klassifikatoren schreiben.
-
Wählen Sie Erstellen.
Crawler erstellen und ausführen
Führen Sie die folgenden Schritte aus:
- Wählen Sie im Navigationsbereich Crawlers.
- Wählen Sie Add crawler (Crawler hinzufügen) aus.
- Geben Sie als Crawler name (Crawler-Name) einen eindeutigen Namen ein.
- Wählen Sie den Pfeil neben dem Abschnitt Tags, Beschreibung, Sicherheitskonfiguration und Klassifikatoren (optional) aus, und wechseln Sie dann zum Abschnitt Benutzerdefinierte Klassifikatoren.
- Wählen Sie Hinzufügen neben der Kundenklassifizierung aus, die Sie zuvor erstellt haben, und klicken Sie dann auf Weiter.
- Wählen Sie auf der Seite Specify crawler source type (Crawler-Quelltyp angeben) die Option Datenspeicher und dann Weiter aus.
- Geben Sie auf der Seite Hinzufügen eines Datenspeichers Folgendes ein:
Wählen Sie für Choose data store (Datenspeicher auswählen) Ihren bevorzugten Datenspeicher aus.
Geben Sie unter Pfade einschließen den Pfad zur .dat-Datei ein. - Wählen Sie Weiter aus und bestätigen Sie dann, ob Sie einen weiteren Datenspeicher hinzufügen möchten.
- Wählen Sie auf der Seite IAM-Rolle auswählen eine vorhandene AWS Identity and Access Management (IAM, Identitäts- und Zugriffsmanagement)-Rolle aus oder erstellen Sie eine neue. Wählen Sie dann Weiter aus.
- Wählen Sie als Häufigkeit die Option Bei Bedarf ausführen und dann Weiter aus.
- Wählen Sie auf der Seite Configure the crawler's output (Crawler-Ausgabe konfigurieren) als Datenbank die Datenbank aus, in der Sie die Tabelle erstellen möchten. Wählen Sie dann Weiter aus.
- Wählen Sie Fertigstellen aus.
- Wenn sich der Crawler-Status in Bereit ändert, wählen Sie den Crawler-Namen und dann Run crawler (Crawler ausführen) aus.
- Warten Sie, bis die Ausführung des Crawlers abgeschlossen ist, und wählen Sie dann im Navigationsbereich Tabellen aus. Die Klassifizierung muss mit der Klassifizierung übereinstimmen, die Sie für den benutzerdefinierten Grok-Klassifikator eingegeben haben.
Ähnliche Informationen
Relevanter Inhalt
- AWS OFFICIALAktualisiert vor 3 Jahren
- AWS OFFICIALAktualisiert vor 2 Monaten
- AWS OFFICIALAktualisiert vor 8 Monaten
- AWS OFFICIALAktualisiert vor 3 Jahren