Help improve AWS Support Official channel in re:Post and share your experience - complete a quick three-question survey to earn a re:Post badge!
22 条结果
【以下的问题经过翻译处理】 我的客户希望通过Redshift Spectrum提供对由Lake Formation管理的数据的细粒度访问。他们想知道如何控制访问权限,以及是否可以通过Redshift用户来完成,还是只能通过IAM来完成。从我查阅的各种文档中可以看出,似乎只能修改Redshift集群上的策略以访问数据,而无法进一步限制单个用户的访问权限。
我查阅的文档如下:
<https://do...
【以下的问题经过翻译处理】 一个客户想在AWS上建立一个数据湖,其中一个数据源将是Oracle Cloud上的统一模型EDW。有哪些选项可以从EDW中提取数据并将其作为文本扁平文件(CSV)加载到S3中? Glue能胜任这项工作吗?
非常感谢。
【以下的问题经过翻译处理】 我的客户有一个由2-4个dc2.8xlarge节点组成的 Redshift集群。他们想要通过设置选项(MAXFILESIZE AS 1GB),将数据以Parquet 格式,并以约为1GB的平均文件大小导出。但是引擎却以5MB到25MB的平均文件大小,导出了总共500MB的数据,共计64个文件。
我的问题:
1. 我们如何控制每个parquet文件的大小?
2. Re...
【以下的问题经过翻译处理】 我已经尝试了一个星期,但是我开始放弃了——我需要一些帮助理解这个。我有一个S3存储桶,里面装满了XML文件,我正在创建一个pyspark ETL作业将它们转换为Parquet,以便我可以在Athena中查询它们。
在每个XML文件中,都有一个名为ORDER_LINE的XML标签。这个标签应该是一个项的数组,然而在许多文件中,只有一个项。XML没有数组的概念,因此当我将...
【以下的问题经过翻译处理】 我有一个客户使用 Ab Initio 来执行本地 ETL 工作负载。他们现在想要在 AWS 上构建一个数据湖,并且更愿意使用这个已经建立的工具从数据源写入 S3 存储桶,也可能写入 Redshift。在我们继续引导客户使用 Glue、Lambda、SDLF 框架之前,我想探讨一下他们是否可以将 Ab Initio 作为首选。
因此,Ab Initio 是否将 AWS...
【以下的问题经过翻译处理】 大家好,
我有一个 AWS Glue作业,从 s3 中读取 CSV 文件,并将数据注入到 MySQL RDS Aurora DB 的表中。
问题是 CSV 文件中所有带有转义字符的行都被Glue作业完全忽略,并且没有插入到表格当中。
例如,在我的 CSV 文件中,如下字符串的行被 glue 作业忽略:
>
> "Return "1" if the number ...
【以下的问题经过翻译处理】 根据AWS博客文章[Dynamic Partitioning](https://aws.amazon.com/blogs/big-data/kinesis-data-firehose-now-supports-dynamic-partitioning-to-amazon-s3/),我已经配置了一个firehose传输流,将API调用转换为Parquet输出到S3,现在根...
【以下的问题经过翻译处理】 团队您好,
我运行了一个 AWS Glue Job,从 S3 存储桶上的 CSV 文件读取数据到我的 Aurora MySQL 数据库中。
但它将 CSV 中的空字符串("")解释为 null 值,然后尝试将其插入到非空列中。导致我的Job执行失败。
是否有特定的 Glue / PySpark 代码配置可以防止作业将空字符串视为 null?
谢谢!
【以下的问题经过翻译处理】 在 Glue 控制台(Glue 3.0 - python 和 spark),我需要在自动化流程中覆盖 S3 存储桶的数据。我尝试在脚本中使用`glueContext.purge_s3_path( "s3://bucket-to-clean-path/", { "retentionPeriod": 1, "manifestFilePath": "s3://bucket-f...
【以下的问题经过翻译处理】 服务名称:AWS Glue
情况:在Glue数据目录中使用Web UI搜索框输入部分表名,搜索结果不正确。例如:
| 名称 | 数据库 | 位置 |
| --- | --- | --- |
| mqtt\_aapl | mydb | mylocation |
| mqtt\_goog | mydb | mylocation |
| mqtt\_tesla | myd...