En utilisant AWS re:Post, vous acceptez les AWS re:Post Conditions d’utilisation

Glue ETL Job与Redshift的外部连接 - 过滤再提取?

0

【以下的问题经过翻译处理】 试图使用数据湖glue从redshift ETL数据集。Redshift数据集非常大,我只想在每次作业运行时提取最后x天的数据。当我设置作业时,过滤器出现在应用映射之后,选择DataFrame之前。这样做时,Redshift查询在集群上显示为实际上是“ Select *”。似乎DataFrame想要将整个Redshift表加载到Glue中,然后进行过滤,这既费时又最终失败。是否有一种在DataFrame之前过滤数据源的方法?

1 réponse
0

【以下的回答经过翻译处理】 使用Databricks Redshift驱动程序。这需要在Glue中进行一些自定义编码,但在过去的工作中表现出色。我的示例代码可参考https://github.com/saunakc/etl-microservice-datalake/blob/master/src/glue/unload-table-part.py

profile picture
EXPERT
répondu il y a un an

Vous n'êtes pas connecté. Se connecter pour publier une réponse.

Une bonne réponse répond clairement à la question, contient des commentaires constructifs et encourage le développement professionnel de la personne qui pose la question.

Instructions pour répondre aux questions