基于 Glue读取 S3 数据,转换并放入 Data Catalog。需要使用Glue Crawler吗?

0

【以下的问题经过翻译处理】 每小时将文件上传到 S3 存储桶。我目前有一个 Glue ETL 作业读取 S3 存储桶、转换数据并插入到 Glue 数据目录中。此外,我还见过使用Glue Crawler的例子:基于Glue Crawler读取 S3,将元数据写入 Data Catalog,然后 ETL 作业从表中读取转换,然后写回另一个表(或其它目标)。我应该使用Glue Crawler吗?如果我可以使用 ETL 作业进入 S3->Transform->Data Catalog,我认为不需要它。看起来 ETL 作业支持书签(初始化/提交)就像爬虫一样。

profile picture
EXPERTE
gefragt vor 5 Monaten26 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 你好,

AWS Glue Crawler用于自动发现 Amazon S3 或其他数据源的schema。它们还有助于捕获schema的变更。

如果您的schema是固定的(不经常更改)、已被获取的、并且您通过控制台或使用 API 的代码手动创建表没有问题,那么您不需要使用它们。

还要考虑 Crawler 确实有额外的成本,因此如果您可以自行管理数据集的模式,那么成本优化可能是不使用Crawler的另一个原因。

有关爬虫的更多信息,您可以参考 AWS Glue 文档的这一部分

希望这可以帮助

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen