L'un des nœuds de mon cluster Amazon OpenSearch Service est en panne. Ou bien, mes nœuds OpenSearch Service ne cessent de se bloquer.
Résolution
Des nœuds de cluster défaillants peuvent survenir car une pression élevée de la machine virtuelle Java (JVM) ou une utilisation élevée du processeur surchargent le nœud. Une défaillance d'un nœud de cluster se produit également lorsque des pannes matérielles entraînent des échecs de surveillance de l'état.
Vérifier les nœuds défaillants
Procédez comme suit :
- Ouvrez la console OpenSearch Service.
- Dans le volet de navigation, sous Clusters gérés, choisissez Domaines.
- Sélectionnez votre domaine OpenSearch Service.
- Choisissez l'onglet État du cluster, puis choisissez Nœuds. Si le nombre de nœuds est inférieur au nombre que vous avez configuré pour votre cluster, cela signifie qu'un nœud est en panne.
Remarque : La métrique Nœuds peut être inexacte lors des modifications apportées à la configuration de votre cluster ou de la maintenance de routine du service. Cette réaction est normale.
Identifier et dépanner les nœuds surchargés
Une pression élevée du processeur et de la JVM peut entraîner une suppression des nœuds du cluster en raison d'un trafic élevé. Lorsqu'un nœud ne peut pas gérer la charge, il peut ne plus répondre et se bloquer.
Pour résoudre ce problème, redémarrez le nœud. Assurez-vous de respecter les exigences de redémarrage du nœud.
Si les problèmes persistent, vérifiez et réduisez l'utilisation du processeur et la pression de mémoire JVM sur votre cluster OpenSearch Service.
Identifier et résoudre les problèmes de panne matérielle
Les pannes matérielles peuvent affecter la disponibilité des nœuds de cluster. OpenSearch Service effectue des surveillances périodiques de l'état sur chaque nœud. Si un nœud échoue à ses surveillances de l'état, OpenSearch Service l'autorise à rejoindre le cluster ou le remplace automatiquement par un nouveau nœud sain.
Utiliser la réplication pour réduire le risque de perte de données
Exécutez la commande suivante pour activer les réplicas de vos index afin qu’ils servent de sauvegarde au cas où OpenSearch Service remplacerait un nœud défaillant :
curl -XPUT 'domain-endpoint/indexname/_settings' -H 'Content-Type: application/json' -d'{ "index" : { "number_of_replicas" : 0 }}
Remarque : Remplacez domain-endpoint par votre point de terminaison de domaine et indexname par votre nom d'index.
Les partitions de réplicas assurent la redondance des données et permettent au cluster de continuer à répondre aux demandes même si une partition principale n'est plus disponible. Il est recommandé de configurer au moins un réplica pour chaque index. Les clusters multi-nœuds dépourvus de partitions de réplicas sont exposés à un risque de perte de données. Pour en savoir plus, consultez la section Dimensionnement des domaines Amazon OpenSearch Service.
Il est recommandé d'utiliser plusieurs nœuds de données dans chaque cluster. Vous ne pouvez pas utiliser de partitions de réplicas pour des clusters à nœud unique car il n’est pas possible d’attribuer des partitions principales et de réplicas au même nœud. Si le nœud tombe en panne, vous subissez une perte de données. Cela se produit même si vous avez activé un contrôle d'accès précis pour votre cluster. Si votre cluster à nœud unique tombe en panne, utilisez un instantané d'index pour restaurer les données perdues.
Important : Vous ne pouvez récupérer que les données que vous avez capturées dans votre dernier instantané.
Configurer un domaine multi-AZ
Lorsque vous configurez un domaine multi-AZ, OpenSearch Service lance des nœuds de données dans plusieurs zones de disponibilité. OpenSearch Service distribue les partitions principales et les partitions de réplicas correspondantes dans différentes zones de disponibilité. En cas de panne dans un nœud ou une zone, vos données sont toujours disponibles.
Informations connexes
Bonnes pratiques opérationnelles pour Amazon OpenSearch Service
Comment améliorer la tolérance aux pannes de mon domaine OpenSearch Service ?
Comment augmenter verticalement ou horizontalement un domaine OpenSearch Service ?
Pourquoi mon domaine OpenSearch Service est-il bloqué à l'état ?"Modifying"