He activado los marcadores para mi trabajo de AWS Glue, pero el trabajo sigue reprocesando los datos.
Resolución
Los siguientes son los motivos habituales por los que un trabajo de extracción, transformación y carga (ETL) vuelve a procesar los datos aunque hayas activado los marcadores de trabajo:
-
Tienes varios trabajos simultáneos con marcadores de trabajo y la coincidencia máxima no está establecida en 1.
-
El objeto job.init() falta o no se llama al inicio del script de ETL de AWS Glue:
job.init(args['JOB_NAME'], args)
-
El objeto job.commit() falta o no se llama al final del script:
job.commit()
-
Falta el parámetro transformation_ctx o no es único para cada instancia del operador de ETL:
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "db_name", table_name = "table_name", transformation_ctx = "datasource0")
-
Las claves principales de la tabla no siguen una secuencia (solo conexiones de JDBC).
-
Los datos de origen se han modificado después de la última ejecución del trabajo.
-
El trabajo usa un DataFrame de Spark, pero los DataFrames de Spark no admiten la característica de marcadores de trabajo de AWS Glue.
Para obtener más información sobre cada uno de estos problemas, consulta Error: A job is reprocessing data when job bookmarks are enabled (Error: un trabajo está reprocesando datos cuando los marcadores de trabajo están activados).
Información relacionada
Tracking processed data using job bookmarks