Lorsque j'analyse un fichier .dat de largeur fixe à l'aide d'un classificateur intégré, mon analyseur AWS Glue classe le fichier comme INCONNU.
Brève description
Les classificateurs intégrés ne peuvent pas analyser les fichiers de données à largeur fixe. Utilisez plutôt un classificateur personnalisé grok.
Résolution
Créer le classificateur personnalisé grok
Procédez comme suit.
-
Ouvrez la console AWS Glue.
-
Dans le volet de navigation, sélectionnez Classificateurs.
-
Sélectionnez Ajouter un classificateur, puis saisissez les informations suivantes :
Dans le champ Nom du classificateur, saisissez un nom unique.
Pour Type de classificateur, sélectionnez Grok.
Dans Classification, saisissez une description du format ou du type de données que vous classez.
Pour Modèle Grok, saisissez les modèles intégrés que vous souhaitez qu'AWS Glue utilise pour trouver des correspondances dans vos données. Pour analyser un fichier .dat, vous n'avez pas besoin de délimiteur entre les champs. Étant donné que chaque présente une longueur connue, utilisez un modèle de regex pour trouver des correspondances.
Exemple :
(?<col0>.{7})(?<col1>.{8})(?<col2>.{14})(?<col3>.{52})
(Facultatif) Pour Modèles personnalisés, saisissez les modèles personnalisés que vous souhaitez utiliser. Ces modèles sont référencés par le modèle grok qui classe vos données. Chaque modèle personnalisé doit figurer sur une ligne distincte. Pour plus d'informations, consultez la section Écrire des classificateurs personnalisés grok.
-
Sélectionnez Créer.
Créer et exécuter l’analyseur
Procédez comme suit :
- Dans le volet de navigation, sélectionnez Analyseurs.
- Sélectionnez Ajouter un analyseur.
- Pour Nom de l’analyseur, saisissez un nom unique.
- Choisissez la flèche en regard de la section Identifications, description, configuration de sécurité et classificateurs (facultatif), puis accédez à la section Classificateurs personnalisés.
- Sélectionnez Ajouter en regard du classificateur de clients que vous avez créé précédemment, puis Suivant.
- Sur la page Spécifier le type de source pour l'analyseur, sélectionnez Magasins de données, puis cliquez sur Suivant.
- Sur la page Ajouter un magasin de données, saisissez les informations suivantes :
Pour Choisir un magasin de données, choisissez votre magasin de données préféré.
Pour Inclure le chemin, saisissez le chemin d'accès à votre fichier .dat.
- Sélectionnez Suivant, puis confirmez si vous souhaitez ajouter un autre magasin de données.
- Sur la page Choisir un rôle IAM, sélectionnez un rôle AWS Identity and Access Management (IAM) existant ou créez-en un. Puis, sélectionnez Suivant.
- Pour Fréquence, sélectionnez Exécuter à la demande, puis ** Suivant**.
- Sur la page Configurer la sortie de l’analyseur, dans Base de données, choisissez la base de données dans laquelle vous souhaitez créer la table. Puis, sélectionnez Suivant.
- Sélectionnez Terminer.
- Lorsque le statut de l’analyseur passe à Prêt, sélectionnez le nom de l’analyseur, puis sélectionnez Exécuter l’analyseur.
- Attendez que l’analyseur se termine, puis sélectionnez Tables dans le volet de navigation. La classification doit correspondre à celle que vous avez saisie pour le classificateur personnalisé grok.
Informations connexes
Création de classificateurs à l'aide de la console AWS Glue
Définition et gestion des classificateurs