在Glue ETL作业中使用Pandas(如何将 Dynamic DataFrame或PySpark DataFrame转换为Pandas DataFrame)

0

【以下的问题经过翻译处理】 我想在Glue ETL作业中使用Pandas。我正在从S3读取,写入到Data Catalog。我正在尝试找到一个基本示例,可以从S3中读取,将其转换为Pandas DF,并进行我的操作,然后将其写入到Data Catalog。看起来我可能需要先将其写入Dynamic DataFrame,然后再发送到data catalog。有没有示例?我今天正在使用PySpark进行ETL,但希望大部分转换都在Pandas中完成。

profile picture
專家
已提問 6 個月前檢視次數 19 次
1 個回答
0

【以下的回答经过翻译处理】 使用.ToDF()方法将 Dynamic DataFrame 转换为Spark数据,并使用链接https://sparkbyexamples.com/pyspark/convert-pyspark-dataframe-to-pandas/#:~:text=Convert%20PySpark%20Dataframe%20to%20Pandas%20DataFrame,small%20subset%20of%20the%20data将Spark dataframe转换为pandas dataframe。

profile picture
專家
已回答 6 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南