将一个Glue作业脚本分成多个子模块/多个文件,还是保持一个长的脚本更优?

0

【以下的问题经过翻译处理】 一个客户正在使用一个大型的python脚本来运行Glue ETL作业。他们想知道是将其保持为一个冗长的Glue作业脚本还是拆分为子模块/多个文件更优? 我认为这取决于 Glue ETL 作业的复杂程度,但通常最佳实践是尽可能利用并行处理,并且拥有子模块将使其更容易进行协同开发/维护代码。

profile picture
專家
已提問 6 個月前檢視次數 8 次
1 個回答
0

【以下的回答经过翻译处理】 如果可以的话,我强烈建议将作业分成多个。不建议使用需要大量DPUs的单个大型作业。对于我的例子,我需要700个DPUs来将每个500 MB CSV和gzip压缩的文件转换为parquet格式的14000个文件。我了解到,在Glue中最好的方法是将其拆分为14个相同Spark作业实例,每个作业实例处理1000个文件,每个作业实例使用50个DPUs。基本上,如果可以的话,尝试将作业拆分成多个部分;如果不能将作业拆分,需要大量DPUs,那么最好考虑使用短暂的EMR集群。

profile picture
專家
已回答 6 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南