Desidero risolvere i problemi più comuni che si verificano quando utilizzo AWS Glue Crawler per eseguire il crawling dei dati in file .csv.
Breve descrizione
Alcuni problemi comuni che causano errori per il classificatore .csv integrato in AWS Glue Crawler includono:
- La prima riga di dati non è specificata come intestazione, quindi i dati visualizzano intestazioni di colonna generiche, come col1 e col2.
- I dati racchiusi tra due virgolette, ad esempio "ABC" e "XYZ", non vengono riconosciuti.
Risoluzione
Crea un classificatore .csv personalizzato, quindi aggiungi il classificatore personalizzato a un nuovo AWS Glue Crawler.
Crea un classificatore personalizzato
Utilizza la console AWS Glue per creare un classificatore personalizzato. Utilizza i seguenti parametri per definire il tuo classificatore:
- In Classifier name (Nome classificatore), inserisci un nome univoco.
- In Classifier type (Tipo classificatore), scegli CSV.
- Per Delimitatore di colonna, seleziona il simbolo della virgola.
- Per Quote symbol (Virgolette), seleziona le virgolette.
- Per le Column headings (Intestazioni colonne, scegli Has headings (Ha intestazioni).
(Facoltativo) Se sai i nomi delle tue colonne, inserisci i nomi delle intestazioni. Assicurati di separare i nomi con una virgola.
Nota: per impostazione predefinita, il classificatore .csv utilizza Open CSV SerDe come libreria di serializzazione. Open CSV SerDe supporta i dati con virgolette doppie e l'intestazione specificata. Per ulteriori informazioni, consulta Librerie CSV SerDe.
Aggiungi il tuo classificatore personalizzato a un nuovo AWS Glue Crawler
Crea un nuovo AWS Glue Crawler. Utilizza i seguenti parametri per configurare il crawler:
- Per Origine dati, seleziona l'archivio dati in cui si trovano i tuoi file .csv.
- Per Include path (Percorso di inclusione), inserisci il percorso di inclusione dei tuoi file .csv.
- Per i Custom classifiers (Classificatori personalizzati), aggiungi il classificatore .csv personalizzato che hai creato all'elenco dei classificatori.
- Per Ruolo IAM, seleziona un ruolo AWS Identity and Access Management (IAM) con le autorizzazioni necessarie per eseguire il crawling del tuo file .csv.