对ETL Workflow进行编排,在Step Function和Glue Workflows之间该如何选择??

0

【以下的问题经过翻译处理】 IHAC正在为他们的数据湖进行底层设计。他们希望尽可能都使用AWS原生服务。他们对AWS上的ETL编排最佳实践有疑问。他们正在查看Step函数,但自2019年6月以来,Glue Workflow已经可用,他们想知道该使用哪种或组合使用。当然,他们正在寻找简单的方式。以下是他们的主要要求:

  1. ETL编排-Step函数 vs. Glue Workflow
    1. ~150个源都会在不同的时间发送文件
    2. 源系统有并发限制,调度工具必须支持
    3. 例如,ACME源的最大并发作业为10-作业调度工具应轮询并提交作业,保持10个活动作业,但不超过10个
    4. ETL作业应基于参数化模板构建,其中他们传递诸如源、表名日期等参数,作业自动构建而不需要维护每个源/表的作业/脚本库。希望这可以动态构建
    5. ETL处理的警报
      1. 处理失败时,Cloudwatch产生警报到SNS主题,通知ETL团队
      2. 加载完毕后,Cloudwatch产生警报到SNS主题,通知业务人员
      3. 等等
    6. 支持下游jobs/etl,例如,已经完成每天的A& B文件加载后,应启动加载文件C等
1 Antwort
0

【以下的回答经过翻译处理】 嘿,Dave,

这似乎是使用Glue的完美用例,特别是对于不太大规模的数量和并发情况。

祝您好运! Ido

profile picture
EXPERTE
beantwortet vor 6 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen