Glue ETL Job与Redshift的外部连接 - 过滤再提取?

0

【以下的问题经过翻译处理】 试图使用数据湖glue从redshift ETL数据集。Redshift数据集非常大,我只想在每次作业运行时提取最后x天的数据。当我设置作业时,过滤器出现在应用映射之后,选择DataFrame之前。这样做时,Redshift查询在集群上显示为实际上是“ Select *”。似乎DataFrame想要将整个Redshift表加载到Glue中,然后进行过滤,这既费时又最终失败。是否有一种在DataFrame之前过滤数据源的方法?

profile picture
ESPECIALISTA
feita há um ano41 visualizações
1 Resposta
0

【以下的回答经过翻译处理】 使用Databricks Redshift驱动程序。这需要在Glue中进行一些自定义编码,但在过去的工作中表现出色。我的示例代码可参考https://github.com/saunakc/etl-microservice-datalake/blob/master/src/glue/unload-table-part.py

profile picture
ESPECIALISTA
respondido há um ano

Você não está conectado. Fazer login para postar uma resposta.

Uma boa resposta responde claramente à pergunta, dá feedback construtivo e incentiva o crescimento profissional de quem perguntou.

Diretrizes para responder a perguntas