客户如何将自建数据库中的数据导入AWS？

Question

【以下的问题经过翻译处理】 我们正在使用一种相当复杂的解决方案将客户自建数据库的数据提取转换加载到我们的API/DB系统中，反之亦然。我想知道是否有类似AWS Glue的工具可以帮助处理这个问题。我们没有直接的DB访问权限，通常选择使用CSV格式的每晚数据文件进行操作。

Answer

【以下的回答经过翻译处理】 是的，我们把它分解成三个步骤，假设有大量的数据和处理需求。这只是一种做事情的方式。

1.提取-这部分是你描述你的客户案例中的一个步骤，假设他们的传输协议是SFTP，他们使用[用于SFTP的AWS转移]（https://aws.amazon.com/sftp/），在Python中，他们可以使用[请求]库（https://realpython.com/python-requests/）进行RESTful API调用以获取他们的数据。这个Python可以作为Glue作业的一部分，因为Glue支持Python Shell作业。

2.一旦数据在S3或客户环境中，他们需要转换和加载（TL）它或先加载它然后再转换它（LT）。

3.如果期望的最终状态是数据仓库，该数据将被查询、聚合、分析并由用户和执行人员用于业务决策，则选择Amazon Redshift作为目标是有道理的。

4.他们可以使用AWS Glue（仅是托管的Spark）将数据转换和加载到Redshift，或者仅仅将数据加载到Redshift，然后转换数据。

5.最后但并非最不重要，他们需要一个定时器将其连接起来，因此他们可以使用Apache Airflow或AWS Step Function。

注：AWS Glue的替代产品可能来自Amazon EMR生态系统，具有自己的工具和选择，但Glue是一个托管的环境，因此除非绝对必要的原因，他们不应该为此额外签署管理开销。

客户如何将自建数据库中的数据导入AWS？

関連するコンテンツ