基于 Glue读取 S3 数据,转换并放入 Data Catalog。需要使用Glue Crawler吗?

0

【以下的问题经过翻译处理】 每小时将文件上传到 S3 存储桶。我目前有一个 Glue ETL 作业读取 S3 存储桶、转换数据并插入到 Glue 数据目录中。此外,我还见过使用Glue Crawler的例子:基于Glue Crawler读取 S3,将元数据写入 Data Catalog,然后 ETL 作业从表中读取转换,然后写回另一个表(或其它目标)。我应该使用Glue Crawler吗?如果我可以使用 ETL 作业进入 S3->Transform->Data Catalog,我认为不需要它。看起来 ETL 作业支持书签(初始化/提交)就像爬虫一样。

profile picture
专家
已提问 5 个月前21 查看次数
1 回答
0

【以下的回答经过翻译处理】 你好,

AWS Glue Crawler用于自动发现 Amazon S3 或其他数据源的schema。它们还有助于捕获schema的变更。

如果您的schema是固定的(不经常更改)、已被获取的、并且您通过控制台或使用 API 的代码手动创建表没有问题,那么您不需要使用它们。

还要考虑 Crawler 确实有额外的成本,因此如果您可以自行管理数据集的模式,那么成本优化可能是不使用Crawler的另一个原因。

有关爬虫的更多信息,您可以参考 AWS Glue 文档的这一部分

希望这可以帮助

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则