1 réponse
- Le plus récent
- Le plus de votes
- La plupart des commentaires
0
【以下的回答经过翻译处理】 是的,我们把它分解成三个步骤,假设有大量的数据和处理需求。这只是一种做事情的方式。
1.提取-这部分是你描述你的客户案例中的一个步骤,假设他们的传输协议是SFTP,他们使用[用于SFTP的AWS转移](https://aws.amazon.com/sftp/),在Python中,他们可以使用[请求]库(https://realpython.com/python-requests/)进行RESTful API调用以获取他们的数据。这个Python可以作为Glue作业的一部分,因为Glue支持Python Shell作业。
2.一旦数据在S3或客户环境中,他们需要转换和加载(TL)它或先加载它然后再转换它(LT)。
3.如果期望的最终状态是数据仓库,该数据将被查询、聚合、分析并由用户和执行人员用于业务决策,则选择Amazon Redshift作为目标是有道理的。
4.他们可以使用AWS Glue(仅是托管的Spark)将数据转换和加载到Redshift,或者仅仅将数据加载到Redshift,然后转换数据。
5.最后但并非最不重要,他们需要一个定时器将其连接起来,因此他们可以使用Apache Airflow或AWS Step Function。
注:AWS Glue的替代产品可能来自Amazon EMR生态系统,具有自己的工具和选择,但Glue是一个托管的环境,因此除非绝对必要的原因,他们不应该为此额外签署管理开销。
Contenus pertinents
- demandé il y a un an
- demandé il y a 4 mois
- demandé il y a 10 mois
- demandé il y a 9 mois
- AWS OFFICIELA mis à jour il y a 2 ans
- AWS OFFICIELA mis à jour il y a 3 ans
- AWS OFFICIELA mis à jour il y a un an
- AWS OFFICIELA mis à jour il y a 2 ans