标记有以下标签的问题: 数据湖

内容语言: 中文 (简体)

选择要筛选的标签
排序方式 最新

浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。

22 条结果
【以下的问题经过翻译处理】 我的客户希望通过Redshift Spectrum提供对由Lake Formation管理的数据的细粒度访问。他们想知道如何控制访问权限,以及是否可以通过Redshift用户来完成,还是只能通过IAM来完成。从我查阅的各种文档中可以看出,似乎只能修改Redshift集群上的策略以访问数据,而无法进一步限制单个用户的访问权限。 我查阅的文档如下: <https://do...
1
回答
0
点赞数
52
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 一个客户想在AWS上建立一个数据湖,其中一个数据源将是Oracle Cloud上的统一模型EDW。有哪些选项可以从EDW中提取数据并将其作为文本扁平文件(CSV)加载到S3中? Glue能胜任这项工作吗? 非常感谢。
1
回答
0
点赞数
55
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 我的客户有一个由2-4个dc2.8xlarge节点组成的 Redshift集群。他们想要通过设置选项(MAXFILESIZE AS 1GB),将数据以Parquet 格式,并以约为1GB的平均文件大小导出。但是引擎却以5MB到25MB的平均文件大小,导出了总共500MB的数据,共计64个文件。 我的问题: 1. 我们如何控制每个parquet文件的大小? 2. Re...
1
回答
0
点赞数
31
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 我已经尝试了一个星期,但是我开始放弃了——我需要一些帮助理解这个。我有一个S3存储桶,里面装满了XML文件,我正在创建一个pyspark ETL作业将它们转换为Parquet,以便我可以在Athena中查询它们。 在每个XML文件中,都有一个名为ORDER_LINE的XML标签。这个标签应该是一个项的数组,然而在许多文件中,只有一个项。XML没有数组的概念,因此当我将...
1
回答
0
点赞数
26
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 我有一个客户使用 Ab Initio 来执行本地 ETL 工作负载。他们现在想要在 AWS 上构建一个数据湖,并且更愿意使用这个已经建立的工具从数据源写入 S3 存储桶,也可能写入 Redshift。在我们继续引导客户使用 Glue、Lambda、SDLF 框架之前,我想探讨一下他们是否可以将 Ab Initio 作为首选。 因此,Ab Initio 是否将 AWS...
1
回答
0
点赞数
49
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 大家好, 我有一个 AWS Glue作业,从 s3 中读取 CSV 文件,并将数据注入到 MySQL RDS Aurora DB 的表中。 问题是 CSV 文件中所有带有转义字符的行都被Glue作业完全忽略,并且没有插入到表格当中。 例如,在我的 CSV 文件中,如下字符串的行被 glue 作业忽略: > > "Return "1" if the number ...
1
回答
0
点赞数
71
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 根据AWS博客文章[Dynamic Partitioning](https://aws.amazon.com/blogs/big-data/kinesis-data-firehose-now-supports-dynamic-partitioning-to-amazon-s3/),我已经配置了一个firehose传输流,将API调用转换为Parquet输出到S3,现在根...
1
回答
0
点赞数
50
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 团队您好, 我运行了一个 AWS Glue Job,从 S3 存储桶上的 CSV 文件读取数据到我的 Aurora MySQL 数据库中。 但它将 CSV 中的空字符串("")解释为 null 值,然后尝试将其插入到非空列中。导致我的Job执行失败。 是否有特定的 Glue / PySpark 代码配置可以防止作业将空字符串视为 null? 谢谢!
1
回答
0
点赞数
84
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 在 Glue 控制台(Glue 3.0 - python 和 spark),我需要在自动化流程中覆盖 S3 存储桶的数据。我尝试在脚本中使用`glueContext.purge_s3_path( "s3://bucket-to-clean-path/", { "retentionPeriod": 1, "manifestFilePath": "s3://bucket-f...
1
回答
0
点赞数
32
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 服务名称:AWS Glue 情况:在Glue数据目录中使用Web UI搜索框输入部分表名,搜索结果不正确。例如: | 名称 | 数据库 | 位置 | | --- | --- | --- | | mqtt\_aapl | mydb | mylocation | | mqtt\_goog | mydb | mylocation | | mqtt\_tesla | myd...
1
回答
0
点赞数
53
检视次数
profile picture
专家
已提问 1 年前
  • 1
  • 2
  • 12 条/页