Knowledge Center Monthly Newsletter - March 2025
Stay up to date with the latest from the Knowledge Center. See all new and updated Knowledge Center articles published in the last month and re:Post’s top contributors.
Perché il crawler AWS Glue classifica un file di dati a larghezza fissa come UNKNOWN quando uso un classificatore integrato per analizzare il file?
Quando analizzo un file .dat a larghezza fissa con un classificatore integrato, il mio crawler AWS Glue classifica il file come UNKNOWN.
Breve descrizione
I classificatori integrati non possono analizzare file di dati a larghezza fissa. Al loro posto, usa un classificatore personalizzato grok.
Risoluzione
Crea il classificatore personalizzato grok
Completa i passaggi seguenti.
-
Apri la console AWS Glue.
-
Nel pannello di navigazione seleziona Classifiers (Classificatori).
-
Scegli Add classifier (Aggiungi classificatore), quindi inserisci quanto segue:
In Classifier name (Nome classificatore) inserisci un nome univoco.
In Classifier type (Tipo classificatore) scegli Grok.
In Classification (Classificazione) inserisci una descrizione del formato o del tipo di dati che stai classificando.
In Grok pattern (Modello Grok) inserisci i modelli integrati che desideri che AWS Glue utilizzi per trovare corrispondenze nei tuoi dati. Per analizzare un file .dat, non è necessario un delimitatore tra i campi. Poiché ogni campo ha una lunghezza nota, usa un modello regex per trovare le corrispondenze.Esempio:
(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})
(Facoltativo) In Custom patterns (Modelli personalizzati) inserisci i modelli personalizzati che desideri utilizzare. Il modello grok che classifica i dati farà riferimento a questi modelli. Ogni modello personalizzato deve essere su una riga separata. Per ulteriori informazioni, consulta Writing grok custom classifiers.
-
Scegli Create (Crea).
Crea ed esegui il crawler
Completa i passaggi seguenti:
- Nel pannello di navigazione seleziona Crawlers (Crawler).
- Scegli Aggiungi crawler.
- In Crawler name (Nome del crawler) inserisci un nome univoco.
- Fai clic sulla freccia accanto alla sezione Tags, description, security configuration, and classifiers (optional) (Tag, descrizione, configurazione di sicurezza e classificatori (facoltativo)), quindi vai alla sezione Custom classifiers (Classificatori personalizzati).
- Scegli Add (Aggiungi) accanto al classificatore personalizzato creato in precedenza, quindi fai clic su Next (Avanti).
- Nella pagina Specify crawler source type (Specifica il tipo di origine del crawler) seleziona Data stores (Datastore), quindi fai clic su Next (Avanti).
- Nella pagina Add a data store (Aggiungi un datastore) inserisci quanto segue:
In Choose data store (Scegli il datastore) scegli il tuo datastore preferito.
In Include path (Includi percorso) inserisci il percorso del tuo file .dat. - Fai clic su Next (Avanti), quindi conferma se desideri aggiungere un altro datastore.
- Nella pagina Choose an IAM role (Scegli un ruolo IAM) seleziona un ruolo AWS Identity and Access Management (IAM) esistente o creane uno nuovo. Quindi fai clic su Next (Avanti).
- In Frequency (Frequenza) scegli Run on demand (Esegui on demand), quindi fai clic su Next (Avanti).
- Nella pagina Configure the crawler's output (Configura l'output del crawler), in Database, scegli il database in cui desideri creare la tabella. Quindi fai clic su Next (Avanti).
- Fai clic su Finish (Fine).
- Quando lo stato del crawler diventa Ready (Pronto), seleziona il nome del crawler, quindi fai clic su Run crawler (Esegui crawler).
- Attendi che il crawler finisca, quindi scegli Tables (Tabelle) nel pannello di navigazione. Il valore del campo Classification deve corrispondere alla classificazione inserita per il classificatore personalizzato grok.
Informazioni correlate
Contenuto pertinente
- AWS UFFICIALEAggiornata 3 mesi fa
- AWS UFFICIALEAggiornata 3 anni fa
- AWS UFFICIALEAggiornata un mese fa
- AWS UFFICIALEAggiornata 2 anni fa