基于 Glue读取 S3 数据，转换并放入 Data Catalog。需要使用Glue Crawler吗？

Question

【以下的问题经过翻译处理】 每小时将文件上传到 S3 存储桶。我目前有一个 Glue ETL 作业读取 S3 存储桶、转换数据并插入到 Glue 数据目录中。此外，我还见过使用Glue Crawler的例子：基于Glue Crawler读取 S3，将元数据写入 Data Catalog，然后 ETL 作业从表中读取转换，然后写回另一个表（或其它目标）。我应该使用Glue Crawler吗？如果我可以使用 ETL 作业进入 S3->Transform->Data Catalog，我认为不需要它。看起来 ETL 作业支持书签（初始化/提交）就像爬虫一样。

Answer

【以下的回答经过翻译处理】 你好，

AWS Glue Crawler用于自动发现 Amazon S3 或其他数据源的schema。它们还有助于捕获schema的变更。

如果您的schema是固定的（不经常更改）、已被获取的、并且您通过控制台或使用 API 的代码手动创建表没有问题，那么您不需要使用它们。

还要考虑 Crawler 确实有额外的成本，因此如果您可以自行管理数据集的模式，那么成本优化可能是不使用Crawler的另一个原因。

有关爬虫的更多信息，您可以参考 [AWS Glue 文档的这一部分](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html)。

希望这可以帮助

基于 Glue读取 S3 数据，转换并放入 Data Catalog。需要使用Glue Crawler吗？

Relevanter Inhalt