Wie behebe ich Fehler, wenn ich AWS Glue-Crawler zum Durchforsten von.csv-Dateien verwende?

Lesedauer: 2 Minute
0

Ich möchte häufige Probleme beheben, die auftreten, wenn ich AWS Glue-Crawler zum Durchforsten von Daten in .csv-Dateien verwende.

Kurzbeschreibung

Zu den häufigsten Problemen, die zu Fehlern beim integrierten .csv-Klassifikator in AWS Glue Crawler führen, gehören:

  • Die erste Datenzeile ist nicht als Kopfzeile angegeben, und dann zeigen die Daten generische Spaltenüberschriften an, z. B. col1 und col2.
  • Daten, die zwischen zwei Anführungszeichen stehen, z. B. „ABC“ und „XYZ“, werden nicht erkannt.

Lösung

Erstelle einen angepassten .csv-Klassifikator und füge den benutzerdefinierten Klassifikator dann einem neuen AWS Glue-Crawler hinzu.

Einen benutzerdefinierten Klassifikator erstellen

Verwende die AWS Glue-Konsole, um einen benutzerdefinierten Klassifikator zu erstellen. Verwende die folgenden Parameter, um deinen Klassifikator zu definieren:

  • Gib als Classifier name (Klassifikatorname) einen eindeutigen Namen ein.
  • Wähle als Classifier type (Klassifikatortyp) CSV aus.
  • Wähle als Spaltentrennzeichen das Kommasymbol aus.
  • Wähle als Quote symbol (Anführungssymbol) das Anführungszeichen aus.
  • Wähle als Column headings (Spaltenüberschriften) die Option Has headings (Hat Überschriften) aus.
    (Optional) Wenn du die Namen der Spalten kennst, gib die Namen der Überschriften ein. Achte darauf, die Namen durch ein Komma zu trennen.

Hinweis: Standardmäßig verwendet der CSV-Klassifikator Open CSV SerDe als Serialisierungsbibliothek. Open CSV SerDe unterstützt Daten mit doppelten Anführungszeichen und der von dir angegebenen Überschrift. Weitere Informationen findest du unter CSV SerDe-Bibliotheken.

Den benutzerdefinierten Klassifikator einem neuen AWS Glue-Crawler hinzufügen

Erstelle einen neuen AWS Glue-Crawler. Verwende die folgenden Parameter, um den Crawler zu konfigurieren:

  • Wähle als Datenquelle den Datenspeicher aus, in dem sich die .csv-Dateien befinden.
  • Gib für Include path (Pfad einschließen) den einzuschließenden Pfad zu den .csv-Dateien ein.
  • Füge für Custom classifiers (benutzerdefinierte Klassifikatoren) den benutzerdefinierten .csv-Klassifikator, den du erstellt hast, zur Liste der Klassifikatoren hinzu.
  • Wähle für die IAM-Rolle eine AWS Identity and Access Management (IAM, Identitäts- und Zugriffsmanagement)-Rolle aus, die über die erforderlichen Berechtigungen zum Durchforsten der .csv-Datei verfügt.
AWS OFFICIAL
AWS OFFICIALAktualisiert vor 3 Monaten