Sagemaker和数据库中的数据

0

【以下的问题经过翻译处理】 一个客户有关于数据来源的问题:“我们大部分的数据存储在SQL数据库中,而SageMaker文档说我必须把所有数据都放到S3中。最好的方法并不明显。例如,我可以考虑将分析代码拆分为两部分;一部分用于预处理,从SQL查询转换为表格数据,然后将其存储为Parquet文件。对于高维张量数据甚至更不明显。”有人可以对此发表评论吗?

1 回答
0

【以下的回答经过翻译处理】 我们有一个示例笔记本,适用于从SageMaker托管笔记本与Redshift数据交互,我认为它适用于探索性数据分析(EDA)。 https://github.com/awslabs/amazon-sagemaker-examples/blob/master/advanced_functionality/working_with_redshift_data/working_with_redshift_data.ipynb

对于生产目的,客户应考虑将首次从关系型数据库中提取数据到S3(以构建数据湖)的工作与下游处理/机器学习(包括SageMaker,EMR,Athena,Spectrum等)分离。客户可以使用AWS Glue,EMR或其首选ETL引擎(如AWS Marketplace上的引擎)从流行的关系型数据库中构建提取管道。

profile picture
专家
已回答 1 年前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则