¿Por qué mi dominio de Amazon OpenSearch Service está bloqueado en el estado «Procesando»?

7 minutos de lectura
0

Mi clúster de Amazon OpenSearch Service está bloqueado en el estado «Procesando».

Descripción breve

El clúster de OpenSearch Service pasa al estado «Procesamiento» cuando se encuentra en medio de un cambio de configuración. El clúster puede quedarse bloqueado en el estado «Procesando» si ocurre alguna de las siguientes situaciones:

  • Se ha producido un error en una comprobación de validación.
  • No se ha podido lanzar un nuevo conjunto de recursos.
  • No se ha completado la migración de particiones al nuevo conjunto de nodos de datos.
  • El antiguo conjunto de recursos no se ha podido finalizar.

Al iniciar un cambio de configuración, el estado del dominio cambia a «Procesando», mientras que OpenSearch Service crea un nuevo entorno. En el nuevo entorno, OpenSearch Service lanza un nuevo conjunto de nodos aplicables, como nodos de datos, nodos principales dedicados o nodos UltraWarm. Una vez completada la migración, se finalizan los nodos más antiguos.

Puede ver el progreso del cambio de configuración en la consola en Estado del dominio. También puede supervisar el progreso de un cambio de configuración mediante la API DescribeDomainChangeProgress. Para obtener más información, consulte Etapas de un cambio de configuración.

Resolución

Se ha producido un error en una comprobación de validación

Al iniciar un cambio de configuración o realizar una actualización de la versión del dominio de OpenSearch Service, OpenSearch Service primero realiza una serie de comprobaciones de validación. Las comprobaciones de validación garantizan que el dominio cumpla con los requisitos para obtener una actualización. Un dominio puede quedarse bloqueado en el estado «Procesando» si se produce un error en las comprobaciones de validación. Hay varios motivos por los que se puede producir un error en una comprobación de validación. Para resolver este problema, consulte Solución de errores de validación. Siga los pasos de solución de problemas asociados a los errores de validación y vuelva a intentar el cambio de configuración.

No se ha podido lanzar un nuevo conjunto de recursos

Si envía cambios de configuración simultáneos a su clúster antes de que se complete el primer cambio de configuración, el clúster puede quedarse bloqueado. Cuando envíe un nuevo cambio de configuración, espere a que se complete antes de enviar otro.

Las comprobaciones de validación de su dominio en la etapa de validación siguen siendo válidas durante todo el cambio de configuración. Si la configuración pasa la etapa de validación, evite modificar los recursos de los que depende su dominio. Por ejemplo, no desactive la clave de AWS Key Management Service (AWS KMS) que se utiliza para el cifrado.

El dominio también puede bloquearse si encuentra un error de ClusterBlockException. Esto puede ocurrir debido a la falta de espacio de almacenamiento disponible o a una alta presión en la memoria de JVM. Para obtener más información y solucionar problemas, consulte ClusterBlockException.
Nota: Puede consultar las métricas FreeStorageSpace, MasterCPUUtilization y MasterJVMMemoryPressure en Amazon CloudWatch.

No se ha completado la migración de particiones al nuevo conjunto de nodos de datos

Una vez que OpenSearch Service crea los nuevos recursos, comienza la migración de particiones del conjunto anterior de nodos de datos al nuevo conjunto. Esta etapa puede tardar de varios minutos a varias horas, según la carga y el tamaño del clúster.

Para supervisar la migración actual de particiones entre los nodos antiguos y los nuevos, ejecute la siguiente llamada a la API:

GET /<DOMAIN_ENDPOINT>/_cat/recovery?active_only=true

Es posible que la migración de particiones no se realice correctamente por los siguientes motivos:

  • Su clúster de OpenSearch Service se encuentra actualmente en estado rojo. Si el clúster está en estado rojo, solucione el problema del estado rojo del clúster hasta que se encuentre en un estado correcto. Para obtener más información, consulte ¿Por qué mi clúster de Amazon OpenSearch Service aparece en rojo o amarillo?
  • El clúster está sobrecargado y no puede asignar recursos para gestionar la migración de particiones. Un clúster con una alta presión de CPU y JVM podría sobrecargarse. Supervise las métricas JVMMemoryPressure y CPUUtilization de CloudWatch. Para obtener más información, consulte Visualización de métricas en CloudWatch.
  • Falta espacio de almacenamiento libre en el nuevo conjunto de nodos. Este problema se produce cuando entran nuevos datos en el clúster durante el proceso de despliegue azul-verde. Este problema también puede producirse cuando los nodos antiguos tienen particiones grandes que no se pueden asignar a los nodos nuevos.

Para ver el tamaño de las particiones, use la API cat shards en el sitio web de Elasticsearch.
Para ver la cantidad de particiones asignadas a cada nodo, use la API cat allocation en el sitio web de Elasticsearch.
Para averiguar el motivo por el que algunas particiones no se pueden asignar a los nuevos nodos, use la API cluster allocation explain en el sitio web de Elasticsearch.
Si tiene índices antiguos que ya no necesita, puede usar la API delete index en el sitio web de Elasticsearch para liberar espacio de almacenamiento.

Si la partición no se puede asignar a un nodo porque ha superado el número máximo de reintentos, puede volver a intentar la asignación. Aumente la configuración del índice «index.allocation.max_retries» asociada a esa partición mediante la siguiente llamada a la API:

PUT <INDEX_NAME>/_settings
{
    "index.allocation.max_retries" : 10
}

Nota: De forma predeterminada, el clúster intenta asignar una partición un máximo de 5 veces seguidas.

  • Debido a errores internos del hardware, las particiones de los nodos de datos antiguos pueden quedarse atascadas durante una migración.
    Nota: En función del problema de hardware, OpenSearch Service ejecuta scripts de reparación automática para devolver los nodos a un estado correcto.
  • Reubicación de una partición bloqueada a causa de particiones que están ancladas a un conjunto de nodos más antiguo. Para asegurarse de que las particiones no estén ancladas a ningún nodo, compruebe la configuración del índice. O bien, compruebe si el clúster tiene un error de ClusterBlockException.

Para identificar las particiones que no se pueden asignar a los nuevos nodos y la configuración de índice correspondiente, utilice los siguientes comandos:

GET /<DOMAIN_ENDPOINT>/_cluster/allocation/explain?pretty
GET /<DOMAIN_ENDPOINT>/<INDEX_NAME>/_settings?pretty

Con la API get index settings del sitio web de Elasticsearch, comprueba si aparece alguna de estas configuraciones:

{
    "index.routing.allocation.require._name": "NODE_NAME" (OR)
    "index.blocks.write": true
}

Si encuentra «index.routing.allocation.require._name»: «<NODE_NAME>» en la configuración del índice, restablezca esa configuración mediante la siguiente llamada a la API:

PUT /<DOMAIN_ENDPOINT>/<INDEX_NAME>/_settings
{
    "index.routing.allocation.require._name": null
}

Para obtener más información, consulte Filtrado de asignaciones de particiones a nivel de índice en el sitio web de Elasticsearch.

Si observa «index.blocks.write»:true en la configuración del índice, entonces el índice tiene un bloqueo de escritura. Este problema de bloqueo de escritura puede deberse a un error de ClusterBlockException. Para obtener más información, consulte ¿Cómo puedo resolver el error 403 «index_create_block_exception» o «cluster_block_exception» en OpenSearch Service?

Prácticas recomendadas

Para evitar que el clúster de OpenSearch Service se quede bloqueado en el estado «Procesando», siga estas prácticas recomendadas:

  • Asegúrese de que su clúster sea compatible con el proceso de despliegue azul-verde antes de enviar un cambio de configuración.
  • Envíe una prueba de los cambios antes de enviar los cambios de configuración.
  • Asegúrese de que el clúster no esté sobrecargado.
  • Evite enviar varios cambios de configuración simultáneamente.
  • Considere la posibilidad de enviar un cambio de configuración durante las horas de poco tráfico.
  • Supervise el progreso del cambio de configuración.

Nota: Póngase en contacto con AWS Support si ocurre alguna de las siguientes situaciones:

  • El clúster permanece bloqueado en el estado «Procesando» durante más de 24 horas.
  • El dominio se ha bloqueado en la etapa «Eliminación de recursos antiguos».
OFICIAL DE AWS
OFICIAL DE AWSActualizada hace un año