对ETL Workflow进行编排,在Step Function和Glue Workflows之间该如何选择??

0

【以下的问题经过翻译处理】 IHAC正在为他们的数据湖进行底层设计。他们希望尽可能都使用AWS原生服务。他们对AWS上的ETL编排最佳实践有疑问。他们正在查看Step函数,但自2019年6月以来,Glue Workflow已经可用,他们想知道该使用哪种或组合使用。当然,他们正在寻找简单的方式。以下是他们的主要要求:

  1. ETL编排-Step函数 vs. Glue Workflow
    1. ~150个源都会在不同的时间发送文件
    2. 源系统有并发限制,调度工具必须支持
    3. 例如,ACME源的最大并发作业为10-作业调度工具应轮询并提交作业,保持10个活动作业,但不超过10个
    4. ETL作业应基于参数化模板构建,其中他们传递诸如源、表名日期等参数,作业自动构建而不需要维护每个源/表的作业/脚本库。希望这可以动态构建
    5. ETL处理的警报
      1. 处理失败时,Cloudwatch产生警报到SNS主题,通知ETL团队
      2. 加载完毕后,Cloudwatch产生警报到SNS主题,通知业务人员
      3. 等等
    6. 支持下游jobs/etl,例如,已经完成每天的A& B文件加载后,应启动加载文件C等
1개 답변
0

【以下的回答经过翻译处理】 嘿,Dave,

这似乎是使用Glue的完美用例,特别是对于不太大规模的数量和并发情况。

祝您好运! Ido

profile picture
전문가
답변함 6달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인