Uno de los nodos de mi clúster de Amazon OpenSearch Service no funciona. O bien, mis nodos de OpenSearch Service siguen fallando.
Resolución
Los nodos del clúster pueden fallar porque la alta presión de la máquina virtual de Java (JVM) o el uso elevado de la CPU sobrecargan el nodo. La falla del nodo del clúster también se produce cuando las fallas de hardware provocan fallas en las comprobaciones de estado.
Comprobar si hay nodos fallidos
Sigue estos pasos:
- Abre la consola de OpenSearch Service.
- En el panel de navegación, en Clústeres administrados, selecciona Dominios.
- Selecciona tu dominio de OpenSearch Service.
- Selecciona la pestaña Estado del clúster y, a continuación, elige Nodos. Si la cantidad de nodos es inferior a la cantidad que has configurado para el clúster, significa que hay un nodo inactivo.
Nota: La métrica de nodos puede no ser precisa durante los cambios en la configuración del clúster o el mantenimiento rutinario del servicio. Se espera este comportamiento.
Identificación y solución de problemas de nodos sobrecargados
La alta presión de la CPU y la JVM puede hacer que los nodos se eliminen del clúster debido al alto tráfico. Cuando un nodo no puede administrar la carga, puede dejar de responder y bloquearse.
Para solucionar este problema, reinicia el nodo. Asegúrate de cumplir con los requisitos de reinicio del nodo.
Si sigues teniendo problemas, comprueba y reduce el uso de la CPU y la presión de la memoria de JVM en el clúster de OpenSearch Service.
Identificación y solución de problemas de errores de hardware
Los errores de hardware pueden afectar a la disponibilidad de los nodos del clúster. OpenSearch Service realiza comprobaciones de estado periódicas en cada nodo. Si un nodo no pasa las comprobaciones de estado, OpenSearch Service le permite volver a unirse al clúster o lo reemplaza automáticamente por un nodo nuevo y en buen estado.
Uso de la replicación para reducir el riesgo de pérdida de datos
Ejecuta el siguiente comando para activar las réplicas de tus índices para que sirvan como copia de seguridad en caso de que OpenSearch Service sustituya un nodo que se bloqueó:
curl -XPUT 'domain-endpoint/indexname/_settings' -H 'Content-Type: application/json' -d'{ "index" : { "number_of_replicas" : 0 }}
Nota: Sustituye domain-endpoint por el punto de enlace de tu dominio e indexname por tu nombre de índice.
Las particiones de réplica proporcionan redundancia de datos y permiten que el clúster continúe atendiendo las solicitudes incluso si una partición principal deja de estar disponible. Se recomienda configurar al menos una réplica por cada índice. Los clústeres de varios nodos sin particiones de réplica corren el riesgo de perder datos. Para obtener más información, consulta Ajuste de tamaño de dominios de Amazon OpenSearch Service.
Se recomienda usar más de un nodo de datos en cada clúster. No puedes usar particiones de réplica para clústeres de un solo nodo porque no puedes asignar particiones principales y de réplica al mismo nodo. Si el nodo se bloquea, se pierden datos. Esto ocurre incluso si has activado un control de acceso detallado para el clúster. Si el clúster de un solo nodo se bloquea, utiliza una instantánea de índice para restaurar los datos perdidos.
Importante: Solo puedes recuperar los datos que has capturado en la instantánea más reciente.
Configuración de un dominio Multi-AZ
Al configurar un dominio Multi-AZ, OpenSearch Service inicia nodos de datos en varias zonas de disponibilidad. OpenSearch Service distribuye las particiones principales y sus particiones de réplica correspondientes en diferentes zonas de disponibilidad. Si hay un error en un nodo o una zona, los datos siguen estando disponibles.
Información relacionada
Prácticas operativas recomendadas de Amazon OpenSearch Service
¿Cómo hago que mi dominio de Amazon OpenSearch Service sea más tolerante a errores?
¿Cómo puedo escalar verticalmente u horizontalmente un dominio de OpenSearch Service?
¿Por qué mi dominio de OpenSearch Service está bloqueado en el estado de ?"Modifying"