Ongoing service disruptions
For the most recent update on ongoing service disruptions affecting the AWS Middle East (UAE) Region (ME-CENTRAL-1), refer to the AWS Health Dashboard. For information on AWS Service migration, see How do I migrate my services to another region?
Warum wird mein Amazon-EMR-Cluster beendet?
Mein Amazon-EMR-Cluster wurde unerwartet beendet.
Lösung
Amazon EMR speichert Cluster-Protokolle in einem Amazon Simple Storage Service (Amazon S3)-Bucket, den du beim Cluster-Start angibst. Zum Beispiel s3://example-log-location/example-cluster-ID/node/example-EC2-instance-ID/.
Um zu ermitteln, warum der Amazon-EMR-Cluster beendet wurde, überprüfe die Amazon-EMR-Bereitstellungsprotokolle, die in Amazon S3 gespeichert sind.
Fehler „SHUTDOWN_STEP_FAILED (USER_ERROR)“
Wenn du einen Schrittauftrag an den Amazon-EMR-Cluster übermittelst, kannst du das Verhalten bei Schrittfehlern im Parameter ActionOnFailure festlegen. Wenn du TERMINATE_CLUSTER oder TERMINATE_JOB_FLOW für den ActionOnFailure-Parameter auswählst, wird der Amazon-EMR-Cluster beendet und möglicherweise wird die folgende Fehlermeldung von AWS CloudTrail angezeigt:
„{ "severity": "ERROR", "actionOnFailure": "TERMINATE_JOB_FLOW", "stepId": "s-2I0G########", "name": "Example Step", "clusterId": "j-2YJ#######", "state": "FAILED", "message": "Step s-2I0G####### (Example Step) in Amazon EMR cluster j-2YJ####### failed at 202#-1#-0# 0#:## UTC." }“
Um diesen Fehler zu vermeiden, verwende die Option CONTINUE oder CANCEL_AND_WAIT im ActionOnFailure-Parameter, wenn du den Schrittauftrag absendest.
Weitere Informationen findest du unter StepConfig.
Fehler „NO_SLAVES_LEFT (SYSTEM_ERROR)“
Du erhältst den Fehler „No_SLAVES_LEFT“, wenn die folgenden Bedingungen zutreffen:
- Du hast den Beendigungsschutz im Amazon-EMR-Cluster deaktiviert.
- Alle Core-Knoten überschreiten die Festplattenspeicherkapazität, wie in der Klassifizierung der Yarn-Site-Konfiguration durch einen Schwellenwert für die maximale Auslastung angegeben. Der standardmäßige Schwellenwert für die maximale Auslastung liegt bei 90 %.
- Die CORE-Instance ist eine Spot Instance, und die Spot Instance ist TERMINATED_BY_SPOT_DUE_TO_NO_CAPACITY.
Weitere Informationen zur Beendigung von Spot Instances findest du unter Warum hat Amazon EC2 meine Spot Instance unterbrochen?
Gehe wie folgt vor, um diesen Fehler zu beheben:
- Lasse den Beendigungsschutz für die Cluster aktiviert. Weitere Informationen findest du unter Beendigungsschutz und fehlerhafte YARN-Knoten.
- Verwende Amazon-EMR-Skalierungsrichtlinien (automatische Skalierung und verwaltete Skalierung), um die Core-Knoten entsprechend deinen Anforderungen zu skalieren.
- Füge dem Cluster mehr Amazon Elastic Block Storage (Amazon EBS)-Kapazität hinzu. Weitere Informationen findest du unter Wie behebe ich die Fehler „Exit status: -100. Diagnostics: Container released on a lost node“ in Amazon EMR?
- Erstelle einen Amazon-CloudWatch-Alarm für die MRUnhealthyNodes-Metrik. Richte eine Benachrichtigung für diesen Alarm ein, um vor dem 45-Minuten-Timeout über fehlerhafte Knoten benachrichtigt zu werden.
Fehler „502 Bad Gateway“
Wenn interne Amazon-EMR-Systeme den Primärknoten für einen bestimmten Zeitraum nicht erreichen können, erhältst du die Fehlermeldung „502 Bad Gateway“. Wenn du den Beendigungsschutz deaktivierst, beendet Amazon EMR den Cluster.
Wenn der Instance-Controller-Service ausgefallen ist, überprüfe die neuesten Instance-Controller-Protokolle und Instance-Status-Protokolle. Wenn die Standardausgabe des Instance-Controllers zeigt, dass zu wenig Speicher den Service beendet hat, dann fehlt dem Primärknoten ausreichend Speicher.
Im Folgenden findest du ein Beispiel für eine Fehlermeldung aus dem Instance-Status-Protokoll:
# dump instance controller stdouttail -n 100 /emr/instance-controller/log/instance-controller.out OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x00007fb46c7c8000, 12288, 0) failed; error='Cannot allocate memory' (errno=12) # # There is insufficient memory for the Java Runtime Environment to continue. # Native memory allocation (mmap) failed to map 12288 bytes for committing reserved memory. # An error report file with more information is saved as: # /tmp/hs_err_pid16110.log # whats memory usage look like free -m total used free shared buff/cache available Mem: 15661 15346 147 0 167 69 Swap: 0 0 0
Um den vorherigen Fehler zu vermeiden, starte einen Amazon-EMR-Cluster mit einem größeren Instance-Typ, um mehr Speicher für die Anforderungen des Clusters zu nutzen. Bereinige außerdem Speicherplatz, um Speicherausfälle in Clustern mit langer Laufzeit zu vermeiden. Weitere Informationen findest du unter Wie behebe ich den Ausfall des Primärknotens mit dem Fehler „502 Bad Gateway“ oder „504 Gateway Time-out“ in Amazon EMR?
Fehler „KMS_ISSUE (USER_ERROR)“
Wenn du eine Amazon-EMR-Sicherheitskonfiguration verwendest, um ein Amazon-EBS-Root-Gerät und Speicher-Volumes zu verschlüsseln, muss die Rolle über die entsprechenden Berechtigungen verfügen. Wenn die erforderlichen Berechtigungen fehlen, erhältst du in AWS CloudTrail die folgende Fehlermeldung:
„The EMR Service Role must have the kms:GenerateDataKey* and kms:ReEncrypt* permission for the KMS key configuration when you enabled EBS encryption by default. You can retrieve that KMS key's ID by using the ec2:GetEbsDefaultKmsKeyId API.“
Um den vorherigen Fehler zu vermeiden, stelle sicher, dass die Sicherheitskonfigurationen, die du zur Verschlüsselung des Amazon-EBS-Root-Geräts und der Speicher-Volumes verwendet hast, über die erforderlichen Berechtigungen verfügen. Stelle außerdem sicher, dass die Amazon EMR-Servicerolle (EMR_DefaultRole_V2) berechtigt ist, den angegebenen AWS Key Management Service (AWS KMS)-Schlüssel zu verwenden.
Fehler „Terminated with errors, The master node was terminated by user“
Wenn der Primärknoten des Amazon-EMR-Clusters aus irgendeinem Grund angehalten wird, wird der Cluster mit dem Fehler „The master node was terminated by user“ beendet.
In AWS CloudTrail wird die folgende Fehlermeldung angezeigt:
eventTime": "2023-01-18T08:07:02Z", "eventSource": "ec2.amazonaws.com", "eventName": "StopInstances", "awsRegion": "us-east-1", "sourceIPAddress": "52.##.##.##", "userAgent": "AWS Internal", "requestParameters": { "instancesSet": { "items": [ { "instanceId": "i-##f6c5###########" } ] }, "force": false },
Da das Anhalten der Amazon-EMR-Primärknoten oder aller Core-Knoten zur Beendigung des Clusters führt, solltest du Cluster-Knoten nicht anhalten oder neu starten.
Hinweis: Die Amazon-EMR-Cluster werden möglicherweise aus anderen als den in diesem Artikel genannten Gründen beendet. Weitere Informationen findest du unter Ressourcenfehler während des Amazon-EMR-Clusterbetriebs.
- Themen
- Analytics
- Tags
- Amazon EMR
- Sprache
- Deutsch

Relevanter Inhalt
AWS OFFICIALAktualisiert vor 4 Monaten
AWS OFFICIALAktualisiert vor 3 Jahren