Help us improve the AWS re:Post Knowledge Center by sharing your feedback in a brief survey. Your input can influence how we create and update our content to better support your AWS journey.
¿Por qué mi clúster de OpenSearch Service aparece en rojo o amarillo?
Mi clúster de Amazon OpenSearch Service tiene un estado de clúster rojo o amarillo.
Descripción corta
La pestaña Supervisión de la consola de OpenSearch Service muestra el estado del índice en peor estado del clúster. El estado rojo se produce cuando OpenSearch Service no ha asignado una o más particiones principales y sus réplicas. El estado amarillo se produce cuando OpenSearch Service asigna todas las particiones principales pero no ha asignado una o más particiones de réplica.
Importante: El estado del clúster de color rojo indica la falta de disponibilidad parcial de los datos. Si bien el estado amarillo no indica la pérdida de datos, el estado amarillo significa que el clúster carece de redundancia total. Si un nodo falla, es posible que se pierdan datos.
Resolución
Importante: Para reconfigurar un dominio, primero debes resolver el estado del clúster rojo. Si intentas reconfigurar un dominio que está en estado rojo, es posible que se quede bloqueado en el estado «Modificación».
Identificación de la causa de las particiones no asignadas
Para identificar y solucionar la causa raíz de las particiones no asignadas, utiliza el runbook AWSSupport-TroubleshootOpenSearchRedYellowCluster. Para obtener instrucciones, consulta las instrucciones en AWSSupport-TroubleshootOpenSearchRedYellowCluster.
O bien, para identificar manualmente las particiones no asignadas, ejecuta el siguiente comando:
curl -XGET 'domain-endpoint/_cat/shards?h=index,shard,prirep,state,unassigned.reason' | grep UNASSIGNED
Nota: Sustituye domain-endpoint por el punto de enlace de tu dominio. En la salida, anota el ID de la partición.
A continuación, ejecuta el siguiente comando para obtener información detallada sobre el motivo por el que la partición no está asignada:
curl -XGET 'domain-endpoint/_cluster/allocation/explain?pretty' -H 'Content-Type:application/json' -d'{ "index": "index-name", "shard": shardID, "primary": false }'
Nota: Sustituye domain-endpoint por el punto de enlace de tu dominio, index-name por el nombre de tu índice y shardID por el ID de la partición no asignada. Si la partición es una partición principal, sustituye false por true.
Solución de problemas relacionados con el estado rojo o amarillo
Para identificar por qué el estado del clúster es amarillo o rojo, lleva a cabo las siguientes acciones:
-
Consulta las métricas de Amazon CloudWatch ClusterStatus.yellow, ClusterStatus.red, Shards.unassigned, CPUUtilization, JVMMemoryPressure y FreeStorageSpace.
-
Ejecuta la siguiente consulta para identificar los índices afectados:
GET /_cat/indices?v&health=yellow GET /_cat/indices?v&health=red -
Ejecuta la siguiente consulta para entender por qué las particiones no están asignadas en todos los índices:
GET /_cluster/allocation/explainNota: El resultado de este comando muestra una vista completa de las particiones no asignadas y su estado de asignación en todo el clúster. Puedes usar esta información para obtener una descripción general de los problemas de asignación.
Para resolver el estado de un clúster rojo, ejecuta el siguiente comando para eliminar los índices rojos:
curl -XDELETE 'domain-endpoint/index-names'
Nota: Sustituye domain-endpoint por el punto de enlace de tu dominio e index-names por tu nombre de índice.
A continuación, restaura los índices a partir de una instantánea.
Si el estado de su clúster amarillo no se resuelve automáticamente, utiliza la información sobre el motivo por el que la partición no está asignada para abordar la causa raíz.
No hay suficientes nodos para asignarlos a las particiones
Las particiones principales y de réplica deben residir en nodos diferentes. Como resultado, los clústeres de un solo nodo con particiones de réplica siempre se inicializan con un estado amarillo porque OpenSearch Service no puede asignar particiones de réplica.
Las versiones 7.x y posteriores de OpenSearch Service tienen una cuota predeterminada de 1000 para cluster.max_shards_per_node. Se recomienda usar el valor predeterminado para cluster.max_shards_per_node. Para obtener más información, consulta Cluster-level shard, block, and task settings (Configuración de particiones, bloques y tareas a nivel de clúster) en el sitio web de OpenSearch.
Si estableces filtros de asignación de particiones, es posible que la partición deje de estar asignada porque no tiene suficientes nodos filtrados. Para obtener más información sobre los filtros de asignación de particiones, consulta Index-level index settings (Configuración de índices a nivel de índice) en el sitio web de OpenSearch.
Para evitarlo, toma las siguientes medidas:
- Aumenta el número de nodos.
- Asegúrate de que el número de réplicas de cada partición principal sea inferior al número de nodos de datos.
- Reduce la cantidad de particiones de réplica.
Para obtener más información, consulta Dimensionamiento de los dominios de OpenSearch Service y Demystifying OpenSearch Service shard allocation (Desmitificar la asignación de particiones de OpenSearch Service).
Problemas de espacio de almacenamiento
Si no hay suficiente espacio en disco, el clúster puede introducir un estado rojo o amarillo. El nodo debe tener suficiente espacio en disco para alojar las particiones antes de que OpenSearch Service las distribuya.
Para comprobar cuánto espacio de almacenamiento hay disponible para cada nodo del clúster, ejecuta el siguiente comando:
curl domain-endpoint/_cat/allocation?v
Nota: Sustituye domain-endpoint por el punto de enlace de tu dominio.
Si distribuyes las particiones de manera desigual, es posible que algunos nodos se queden sin espacio cuando otros tengan capacidad. Esto puede provocar problemas durante la reasignación de particiones, ya que OpenSearch Service no puede asignar nuevas particiones durante el proceso de reequilibrio.
Para comprobar la configuración de distribución de particiones, ejecuta el siguiente comando:
curl -XGET domain-endpoint/_cluster/settings?include_defaults=true&flat_settings=true
Nota: Sustituye domain-endpoint por el punto de enlace de tu dominio.
Se recomienda supervisar con regularidad el espacio en disco y abordar de forma proactiva los problemas de sesgo del disco para mejorar el estado del clúster.
Para obtener más información, consulta ¿Cómo soluciono el problema de falta de espacio de almacenamiento en mi dominio de OpenSearch Service? y ¿Cómo puedo reequilibrar la distribución desigual de particiones en mi clúster de OpenSearch Service?
Alta presión de memoria JVM
La asignación de particiones es un proceso que consume muchos recursos y consume recursos de CPU, disco, red y espacio en el montón. La presión constante de la memoria de la máquina virtual Java (JVM) puede interferir con la asignación correcta de las particiones. Para resolver este problema, soluciona la alta presión de memoria de JVM. Después de reducir la presión de memoria de JVM, lleva a cabo las siguientes acciones para restaurar el clúster a un estado verde:
- Ejecuta el siguiente comando para aumentar el valor predeterminado de reintento de particiones:
Nota: Sustituye index-name por el nombre de tu índice y 10 por el valor de reintento.PUT /index-name/_settings { "index.allocation.max_retries": 10 } - Cambia el valor de reintento de particiones a 0 para desactivar las particiones de réplica. A continuación, cámbialo a un valor positivo para reactivar las particiones .
Errores en el nodo
Los errores en el nodo provocan que las particiones asignadas se desasignen. Sin particiones de réplica, incluso un error en un solo nodo puede provocar un estado rojo. Sin embargo, al configurar índices con particiones de réplica, un error en un nodo suele provocar un estado amarillo temporal. Este estado amarillo se produce cuando OpenSearch Service se recupera automáticamente. El estado amarillo finaliza cuando el nodo que ha fallado recupera su estado o cuando OpenSearch Service reasigna particiones a otros nodos.
Para protegerte contra los errores de hardware, toma las siguientes medidas:
- Distribuye los nodos en varias zonas de disponibilidad.
- Asegúrate de que haya al menos una partición de réplica para cada índice.
- Activa los nodos maestros dedicados.
- Mejora la tolerancia a errores de tu dominio.
- Utiliza las métricas de CloudWatch para supervisar el estado de los clústeres, de modo que puedas identificar los errores y responder rápidamente a ellos.
Para obtener más información sobre cómo identificar un error de nodo, consulta Nodos de clúster defectuosos.
Estado de clúster amarillo recurrente
Es posible que tus clústeres tengan con frecuencia el estado de estado amarillo por los siguientes motivos:
- Errores o reinicios transitorios de nodos que se producen cuando los nodos fallan temporalmente y las particiones de réplica no se asignan.
Nota: Es posible que el clúster se recupere por sí solo cuando el nodo regrese o cuando OpenSearch Service reequilibre las particiones. - Superas el error de asignación de particiones o reintentas la cuota debido a problemas de configuración o restricciones de recursos.
- El mantenimiento programado, los trabajos de copia de seguridad o los picos de carga elevados se producen en los clústeres con un uso elevado de recursos, por lo que los nodos fluctúan o rechazan las asignaciones de particiones.
- Una actualización periódica o un índice creado automáticamente crearon nuevas réplicas que superan la capacidad del clúster.
Para evitar y solucionar el problema de estado amarillo recurrente, toma las siguientes medidas:
- Para los clústeres de un solo nodo, asegúrate de que todos los índices tengan 0 réplicas.
Nota: Para los clústeres de un solo nodo, OpenSearch Service administra y configura automáticamente los índices del sistema, como opendistro_security. No puedes modificar la configuración de los índices del sistema. - Para los clústeres de varios nodos, conserva al menos un nodo de réplica. Para obtener una mayor redundancia, aumenta el número de nodos y réplicas.
- Configura un dominio Multi-AZ para una alta disponibilidad y tolerancia a errores.
Nota: Si se produce un error en la asignación de particiones, comprueba que la cantidad de nodos del clúster, las zonas de disponibilidad y la configuración en espera sean correctos para los requisitos del clúster. - Si la partición no pudo bloquearse en la memoria, aumenta el valor de index.allocation.max_retries.
- Para evitar que se agoten los recursos, escala verticalmente el dominio cuando haya mucha carga.
- Para supervisar de forma proactiva los cambios en las necesidades de recursos, crea una alarma de CloudWatch para las métricas ClusterStatus.yellow, ClusterStatus.red, JVMMemoryPressure, AutomatedSnapshotFailure y FreeStorageSpace.
Para obtener más información, consulta Prácticas recomendadas operativas para Amazon OpenSearch Service.
- Idioma
- Español

Contenido relevante
- preguntada hace 4 meses
- preguntada hace un año
- preguntada hace 6 meses
- preguntada hace 6 meses
- preguntada hace un año
OFICIAL DE AWSActualizada hace 7 meses