标记有以下标签的问题: 数据湖
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
【以下的问题经过翻译处理】 我的客户希望通过Redshift Spectrum提供对由Lake...
【以下的问题经过翻译处理】 一个客户想在AWS上建立一个数据湖,其中一个数据源将是Oracle Cloud上的统一模型EDW。有哪些选项可以从EDW中提取数据并将其作为文本扁平文件(CSV)加载到S3中? Glue能胜任这项工作吗?
非常感谢。
【以下的问题经过翻译处理】 我的客户有一个由2-4个dc2.8xlarge节点组成的 Redshift集群。他们想要通过设置选项(MAXFILESIZE AS 1GB),将数据以Parquet 格式,并以约为1GB的平均文件大小导出。但是引擎却以5MB到25MB的平均文件大小,导出了总共500MB的数据,共计64个文件。
我的问题:
1. 我们如何控制每个parquet文件的大小?
2....
【以下的问题经过翻译处理】 我已经尝试了一个星期,但是我开始放弃了——我需要一些帮助理解这个。我有一个S3存储桶,里面装满了XML文件,我正在创建一个pyspark...
【以下的问题经过翻译处理】 大家好,
我有一个 AWS Glue作业,从 s3 中读取 CSV 文件,并将数据注入到 MySQL RDS Aurora DB 的表中。
问题是 CSV 文件中所有带有转义字符的行都被Glue作业完全忽略,并且没有插入到表格当中。
例如,在我的 CSV 文件中,如下字符串的行被 glue 作业忽略:
>
> "Return "1" if the number...
【以下的问题经过翻译处理】 我有一个客户使用 Ab Initio 来执行本地 ETL 工作负载。他们现在想要在 AWS 上构建一个数据湖,并且更愿意使用这个已经建立的工具从数据源写入 S3 存储桶,也可能写入 Redshift。在我们继续引导客户使用 Glue、Lambda、SDLF 框架之前,我想探讨一下他们是否可以将 Ab Initio 作为首选。
因此,Ab Initio 是否将 AWS...
【以下的问题经过翻译处理】 根据AWS博客文章[Dynamic...
【以下的问题经过翻译处理】 团队您好,
我运行了一个 AWS Glue Job,从 S3 存储桶上的 CSV 文件读取数据到我的 Aurora MySQL 数据库中。
但它将 CSV 中的空字符串("")解释为 null 值,然后尝试将其插入到非空列中。导致我的Job执行失败。
是否有特定的 Glue / PySpark 代码配置可以防止作业将空字符串视为 null?
谢谢!
【以下的问题经过翻译处理】 在 Glue 控制台(Glue 3.0 - python 和 spark),我需要在自动化流程中覆盖 S3 存储桶的数据。我尝试在脚本中使用`glueContext.purge_s3_path( "s3://bucket-to-clean-path/", { "retentionPeriod": 1, "manifestFilePath":...
【以下的问题经过翻译处理】 服务名称:AWS Glue
情况:在Glue数据目录中使用Web UI搜索框输入部分表名,搜索结果不正确。例如:
| 名称 | 数据库 | 位置 |
| --- | --- | --- |
| mqtt\_aapl | mydb | mylocation |
| mqtt\_goog | mydb | mylocation |
| mqtt\_tesla |...