标记有以下标签的问题: Extract Transform & Load Data
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
XML将一个结构体解释为数组。lg...
【以下的问题经过翻译处理】 我已经尝试了一个星期,但是我开始放弃了——我需要一些帮助理解这个。我有一个S3存储桶,里面装满了XML文件,我正在创建一个pyspark...
1
回答
0
点赞数
7
检视次数
【以下的问题经过翻译处理】 您好,
我正在尝试使用Boto3构建Glue部署系统。我已经成功将Glue脚本Python文件上传到Glue Sources S3桶中,并创建了一个任务。这里没有问题。
下一步是,当我想要更新脚本文件时,不修改任何其他任务参数。我尝试重新上传更新后的脚本文件(与之前的文件同名),并假设在从Glue...
1
回答
0
点赞数
18
检视次数
【以下的问题经过翻译处理】 我有这样的需求:假设我有10个不同的Glue PySpark作业(job1、job2、.......job10),当job1执行并成功后,它就会启动下一个Glue Python shell脚本(假设脚本的名称是:glue_common_python_shell.py)。
每次Glue Python shell都会有不同的参数。
换句话说,当Glue...
1
回答
0
点赞数
19
检视次数
【以下的问题经过翻译处理】 一个客户正在使用一个大型的python脚本来运行Glue ETL作业。他们想知道是将其保持为一个冗长的Glue作业脚本还是拆分为子模块/多个文件更优?
我认为这取决于 Glue ETL 作业的复杂程度,但通常最佳实践是尽可能利用并行处理,并且拥有子模块将使其更容易进行协同开发/维护代码。
1
回答
0
点赞数
11
检视次数
无法使用Glue数据目录让分区正常工作lg...
【以下的问题经过翻译处理】 我有一些上传到单个存储桶的S3文件。没有文件夹或其他内容,只是每小时1个文件上传到这个存储桶中。
我在这些文件上运行一个Glue ETL作业,进行一些转换,并将数据插入到不同存储桶中存储的Glue数据目录中。
这样,我可以使用Athena查询该Glue数据目录。
我想做的是将文件存储在使用分区的Data...
1
回答
0
点赞数
11
检视次数
AWS glue 中的转义字符lg...
【以下的问题经过翻译处理】 大家好,
我有一个 AWS Glue作业,从 s3 中读取 CSV 文件,并将数据注入到 MySQL RDS Aurora DB 的表中。
问题是 CSV 文件中所有带有转义字符的行都被Glue作业完全忽略,并且没有插入到表格当中。
例如,在我的 CSV 文件中,如下字符串的行被 glue 作业忽略:
>
> "Return "1" if the number...
1
回答
0
点赞数
45
检视次数
【以下的问题经过翻译处理】 我有一个客户使用 Ab Initio 来执行本地 ETL 工作负载。他们现在想要在 AWS 上构建一个数据湖,并且更愿意使用这个已经建立的工具从数据源写入 S3 存储桶,也可能写入 Redshift。在我们继续引导客户使用 Glue、Lambda、SDLF 框架之前,我想探讨一下他们是否可以将 Ab Initio 作为首选。
因此,Ab Initio 是否将 AWS...
1
回答
0
点赞数
30
检视次数
【以下的问题经过翻译处理】 Glue 3.0 是否支持 Spark shuffle manager?我正在尝试在Glue 3.0 作业中设置 `--write-shuffle-files-to-s3` 标志,但它似乎不起作用,没有任何文件写入。
如果目前不支持——该特性最终会支持吗?
1
回答
0
点赞数
33
检视次数
【以下的问题经过翻译处理】 嗨 亲爱的,
希望一切都很好!
我正在从事一个将数据从 Google Bigquery 迁移到 Amazon S3 的项目,我刚刚关注了 AWS 博客中的项目(<https://aws.amazon.com/blogs/big-data/migrating-data-from-google-...
1
回答
0
点赞数
57
检视次数
【以下的问题经过翻译处理】 我正在从S3读取文件,并使用Glue ETL作业来填充数据目录表。
我的S3文件长这样:
```
VID,ALTID,VTYPE,TIME,TIMEGMT,VALUE
ABC, ABC, DATAFEED,31-10-2021 22:00:00,01-11-2021 02:00:00, 11775.685
```
读入的模式如下:
```
root
|--...
1
回答
0
点赞数
20
检视次数
【以下的问题经过翻译处理】 你好,
一位客户询问如何从本地 Informatica 迁移到 AWS Glue for ETL。
我从未使用过或见过 Informatica,因此没有太多了解。据我所知,Informatica 看起来像是一种专有的可视化/基于 GUI 的 ETL 工具,类似于 SSIS。用户似乎并没有在 Informatica 中编写他们自己的 PySpark 或...
1
回答
0
点赞数
29
检视次数
【以下的问题经过翻译处理】 每小时将文件上传到 S3 存储桶。我目前有一个 Glue ETL 作业读取 S3 存储桶、转换数据并插入到 Glue 数据目录中。此外,我还见过使用Glue Crawler的例子:基于Glue Crawler读取 S3,将元数据写入 Data Catalog,然后 ETL 作业从表中读取转换,然后写回另一个表(或其它目标)。我应该使用Glue...
1
回答
0
点赞数
37
检视次数