1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 如果可以的话,我强烈建议将作业分成多个。不建议使用需要大量DPUs的单个大型作业。对于我的例子,我需要700个DPUs来将每个500 MB CSV和gzip压缩的文件转换为parquet格式的14000个文件。我了解到,在Glue中最好的方法是将其拆分为14个相同Spark作业实例,每个作业实例处理1000个文件,每个作业实例使用50个DPUs。基本上,如果可以的话,尝试将作业拆分成多个部分;如果不能将作业拆分,需要大量DPUs,那么最好考虑使用短暂的EMR集群。
相关内容
- AWS 官方已更新 1 年前
- AWS 官方已更新 1 年前
- AWS 官方已更新 1 年前
- AWS 官方已更新 3 年前