Comment puis-je détecter et diagnostiquer les problèmes liés au cluster Amazon EMR ?

Lecture de 4 minute(s)
0

Je souhaite détecter et résoudre les erreurs ou exceptions les plus fréquentes dans mes clusters Amazon EMR. Je souhaite également utiliser les journaux EMR qui se trouvent à un emplacement Amazon Simple Storage Service (Amazon S3) pour mieux diagnostiquer et résoudre les problèmes liés à mon cluster.

Brève description

Pour analyser les journaux Amazon EMR qui se trouvent à un emplacement Amazon S3, utilisez le dossier d’exploitation AWS Systems Manager AWSSupport-DiagnoseEMRLogsWithAthena avec Amazon Athena. Utilisez le dossier d’exploitation pour identifier la cause du problème dans votre cluster EMR et le résoudre.

Résolution

Exécuter le dossier d’exploitation d'automatisation

Avant de démarrer le dossier d’exploitation AWSSupport-DiagnoseEMRLogsWithAthena, assurez-vous que votre utilisateur ou votre rôle AWS Identify and Access Management (IAM) dispose des autorisations requises. Pour afficher les actions requises par le paramètre AutomationAssumeRole pour utiliser le dossier d’exploitation, consultez la section AWSSupport-DiagnoseEMRLogsWithAthena.

Pour démarrer le dossier d’exploitation, procédez comme suit :

  1. Ouvrez AWS Support-DiagnoseEMRlogsWithAthena dans la console Systems Manager.
  2. Sélectionnez Exécuter l'automatisation.
  3. Saisissez ensuite les valeurs suivantes :
    AutomationAssumeRole : L’Amazon Resource Name (ARN) du rôle IAM qui permet à Systems Manager Automation d'effectuer les actions en votre nom. Si aucun rôle n'est spécifié, Systems Manager Automation utilise les autorisations de l'utilisateur qui démarre ce dossier d’exploitation.
    ClusterID : Votre ID de cluster Amazon EMR.
    (Facultatif) S3LogLocation : L'emplacement Amazon S3 des journaux EMR. Si le cluster est arrêté pendant plus de 60 jours, indiquez ce paramètre.
    S3BucketName : Le nom du compartiment Amazon S3 dans lequel vous recevez la sortie des requêtes Athena. L’option Bloquer l'accès public doit être activée sur le compartiment. Le compartiment doit se trouver dans la même région AWS et dans le même compte AWS que le cluster.
    Approbateurs : Une liste des principaux authentifiés par AWS qui peuvent approuver ou rejeter l'action.
    (Facultatif) FetchNodeLogsOnly : La valeur par défaut est faux. Pour automatiser le diagnostic des journaux du conteneur d’applications Amazon EMR, définissez la valeur sur vrai.
    (Facultatif) FetchContainersLogsOnly : La valeur par défaut est faux. Pour automatiser le diagnostic des journaux de conteneur Amazon EMR, définissez la valeur sur vrai.
    (Facultatif)EndSearchDate : La date de fin des recherches dans les journaux.
    (Facultatif) DaysToCheck : Si vous définissez la valeur EndSearchDate, DaysToCheck est nécessaire pour déterminer le nombre de jours pendant lesquels vous pouvez rechercher les journaux de façon rétroactive. La valeur maximale est de 30 (48 heures). 
    (Facultatif) SearchKeywords : Une liste de mots-clés à rechercher dans les journaux, séparés par des virgules.
    Remarque : N'incluez pas de guillemets simples ou doubles dans les mots-clés.
  4. Sélectionnez Exécuter.
  5. Consultez les résultats détaillés dans la section Sorties.

La sortie fournit des liens vers les résultats de requête DML (Athena Data Manipulation Language) suivants :

  • Toutes les erreurs et exceptions dans les journaux du cluster Amazon EMR, ainsi que les emplacements de journaux correspondants.
  • Un résumé des exceptions connues uniques qui sont mises en correspondance dans les journaux Amazon EMR.
  • L’emplacement où des erreurs et des exceptions spécifiques apparaissent dans les chemins du journal Amazon S3.

Résoudre les problèmes liés au dossier d’exploitation d'automatisation

Procédez comme suit :

  • Si la requête Athena DML sous-jacente expire parce que la taille du journal du cluster est supérieure à la valeur par défaut, l'automatisation peut échouer. Pour résoudre ce problème, augmentez le délai d'expiration des requêtes DML sur la console Athena Service Quotas. Puis, relancez l'automatisation.
  • Si vous avez mis fin au cluster il y a plus de 60 jours, le dossier d’exploitation ne décrit pas le cluster et ne récupère pas l'emplacement du journal Amazon S3. Pour résoudre ce problème, vérifiez que vous avez saisi les paramètres Cluster-Id et S3LogLocation pour le cluster.

Informations connexes

AWS Support Automation Workflows (SAW)

Exécuter une automatisation

Configuration de l'automatisation

AWS OFFICIEL
AWS OFFICIELA mis à jour il y a 4 mois