Passer au contenu

Comment puis-je résoudre les erreurs lorsque j'utilise AWS Glue Crawler pour analyser des fichiers .csv ?

Lecture de 2 minute(s)
0

Je souhaite résoudre les problèmes courants qui se produisent lorsque j'utilise AWS Glue Crawler pour analyser les données de fichiers .csv.

Brève description

Voici quelques problèmes courants qui provoquent des erreurs pour le classificateur .csv intégré dans AWS Glue Crawler :

  • La première ligne de données n'est pas spécifiée comme en-tête, puis les données affichent des en-têtes de colonne génériques, tels que col1 et col2.
  • Les données entre des guillemets doubles, telles que « ABC » et « XYZ », ne sont pas reconnues.

Résolution

Créez un classificateur .csv personnalisé, puis ajoutez-le à un nouveau robot AWS Glue Crawler.

Créer un classificateur personnalisé

Utilisez la console AWS Glue pour créer un classificateur personnalisé. Utilisez les paramètres suivants pour définir votre classificateur :

  • Dans Nom du classificateur, saisissez un nom unique.
  • Dans Type de classificateur, sélectionnez CSV.
  • Dans Séparateur de colonne, sélectionnez le symbole de virgule.
  • Dans Symbole de guillemets, sélectionnez le symbole de guillemets.
  • Dans En-têtes de colonne, sélectionnez Contient des en-têtes.
    (Facultatif) Si vous connaissez le nom de vos colonnes, saisissez le nom des en-têtes. Veillez à séparer les noms par une virgule.

Remarque : Par défaut, le classificateur .csv utilise Open CSV SerDe comme bibliothèque de sérialisation. Open CSV SerDe prend en charge les données avec des guillemets doubles et l'en-tête que vous spécifiez. Pour en savoir plus, consultez la section Bibliothèques CSV SerDe.

Ajouter votre classificateur personnalisé à un nouveau robot AWS Glue Crawler

Créez un nouveau robot AWS Glue Crawler. Utilisez les paramètres suivants pour configurer le robot :

  • Dans Source de données, sélectionnez le magasin de données dans lequel se trouvent vos fichiers .csv.
  • Dans Inclure le chemin, saisissez le chemin d'inclusion vers vos fichiers .csv.
  • Dans Classificateurs personnalisés, ajoutez le classificateur .csv personnalisé que vous avez créé à la liste de classificateurs.
  • Dans Rôle IAM, sélectionnez un rôle AWS Identity and Access Management (IAM) doté des autorisations nécessaires pour analyser votre fichier .csv.
AWS OFFICIELA mis à jour il y a un an