大数据文件上的 Glue Job

0

【以下的问题经过翻译处理】 我有一个需求,需要创建ETL从100个数据文件(每个文件都有独特的模式)转换成一个公共格式的CSV文件。源文件在S3存储桶文件夹中(每个文件夹都是唯一的数据集)。有时需要在一个文件夹中联合多个文件,并在转换中编写业务逻辑。这些文件有数百万条记录。

我已经尝试使用Glue Cralwer和Glue jobs使用有限数据创建目标文件。 我的问题是,Glue在数百万条记录上的性能如何,它是否具有成本效益?您能否分享有关此问题的信息?另外,我计划从Step Functions编排每个Glue Crawler和Glue Job。这样做的方法正确吗?谢谢。

profile picture
专家
已提问 5 个月前46 查看次数
1 回答
0

【以下的回答经过翻译处理】 AWS Glue的主要重点是解决你描述的问题,还有处理更大的数据集。

显然,如果你没有之前使用Apache Spark(Glue ETL基于它)的经验,根据你的连接和转换逻辑的复杂程度,你可能会遇到挑战。因此,值得投入一些时间来了解其工作原理以及如何监控。

成本效益取决于你的逻辑有多么高效以及你如何调整配置。Glue 4.0提供了许多改进和开箱即用的优化,应该能帮助你解决这个问题。

Glue Crawlers是可选的方便功能,如果你只需要读取一次csv文件(如果不是需要为其他目的使用的表),你可以直接读取它们。

Step Function 需要一些学习,但可以构建高级工作流,对于简单的工作流,Glue提供了触发器和Glue内部的可视化工作流。s

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则