Help us improve the AWS re:Post Knowledge Center by sharing your feedback in a brief survey. Your input can influence how we create and update our content to better support your AWS journey.
标记有以下标签的问题: AWS Glue
AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development.
内容语言: 中文 (简体)
筛选问题
选择要筛选的标签
排序方式
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
189 条结果
【以下的问题经过翻译处理】 我加载了json数据,并在动态数据帧上使用了relationalize方法,以扁平化原本嵌套的json对象,并将其保存为parquet格式。问题是,一旦保存为parquet格式,用于更快的Athena查询的列名包含点,这违反了Athena SQL查询语法,因此我无法进行列特定的查询。
为了解决这个问题,我还在Glue作业中重命名了列名,以排除点,而是用下划线代替。我的...
1
回答
0
点赞数
39
检视次数
【以下的问题经过翻译处理】 我有一个使用大写字符的表名和列名的RDS PostgreSQL数据库。我创建了一个Glue爬虫,通过JDBC连接到数据库,并在转化为数据目录时将大写字符转换为小写字符。当我运行Glue作业进行查询时,出现以下错误:
An error occurred while calling o94.getDynamicFrame. ERROR: column "id" does ...
1
回答
0
点赞数
160
检视次数
【以下的问题经过翻译处理】 我从S3存储桶中读取文件,将其转换为Spark DataFrame,进行转换后又将其转换回Dyanmic DataFrame,然后写入Data Catalog。这会在与输入文件相同的存储桶中创建一堆part-r-00文件,因此我的脚本尝试读取和处理这些文件!它必须创建这些文件吗?是否可以为这些文件设置不同的存储桶?如果不能,是否可以让我的ETL只读取以.csv结尾的文件...
1
回答
0
点赞数
49
检视次数
【以下的问题经过翻译处理】 你好!我是一名经常使用SageMaker Notebooks工作的数据科学家。我想了解何时应该使用Glue Interactive而不是SageMaker Processing。据我了解,它们非常相似,我很难区分它们。谢谢!
1
回答
0
点赞数
52
检视次数
【以下的问题经过翻译处理】 S3中的分区数据如下:
some-dataset/2019-12-28/
some-dataset/2019-12-29/
some-dataset/2019-12-30/
some-dataset/2019-12-31/
some-dataset/2020-01-01/
some-dataset/2020-01-02/
some-dataset/2020-01-03...
1
回答
0
点赞数
24
检视次数
【以下的问题经过翻译处理】 我已经尝试了一个星期,但是我开始放弃了——我需要一些帮助理解这个。我有一个S3存储桶,里面装满了XML文件,我正在创建一个pyspark ETL作业将它们转换为Parquet,以便我可以在Athena中查询它们。
在每个XML文件中,都有一个名为ORDER_LINE的XML标签。这个标签应该是一个项的数组,然而在许多文件中,只有一个项。XML没有数组的概念,因此当我将...
1
回答
0
点赞数
53
检视次数
【以下的问题经过翻译处理】 你好,
有人可以帮忙吗?
我设置了一个跟踪来审计帐户中的所有 TLS 调用并将所有日志保存在 S3 中。我尝试使用 Athena 从 S3 查询日志。这是我创建的查询:
```
创建外部表 cloudtrail_logs_tls_calls (
事件版本 STRING,
用户身份结构<
类型:字符串,
主体 ID:S...
1
回答
0
点赞数
86
检视次数
【以下的问题经过翻译处理】 我在AWS Glue中有许多数据集,其中包含数百个列,但我只需要其中的几个列进行特征选择。我在AWS Glue DataBrew中并未找到保留所需列并删除其余列的选项。请问是否有办法实现这个功能
1
回答
0
点赞数
40
检视次数
【以下的问题经过翻译处理】 我有一个文件,目前存储在S3桶中,包含约1000行,我想将这个文件分成更小的文件(每个文件约有200-500行)。
我在互联网上搜寻过,只发现将文件合并成较大的文件的解决方案。我可以使用Glue自定义输出文件吗?还是应该使用其他方法?
1
回答
0
点赞数
36
检视次数
【以下的问题经过翻译处理】 您好,
我正在尝试使用Boto3构建Glue部署系统。我已经成功将Glue脚本Python文件上传到Glue Sources S3桶中,并创建了一个任务。这里没有问题。
下一步是,当我想要更新脚本文件时,不修改任何其他任务参数。我尝试重新上传更新后的脚本文件(与之前的文件同名),并假设在从Glue UI检查时任务会显示新版本,但实际上没有。仍然显示旧版本。
我可以删...
1
回答
0
点赞数
47
检视次数
【以下的问题经过翻译处理】 我有这样的需求:假设我有10个不同的Glue PySpark作业(job1、job2、.......job10),当job1执行并成功后,它就会启动下一个Glue Python shell脚本(假设脚本的名称是:glue_common_python_shell.py)。
每次Glue Python shell都会有不同的参数。
换句话说,当Glue PySpark作业...
1
回答
0
点赞数
54
检视次数
【以下的问题经过翻译处理】 我正在运行一个AWS Glue DataBrew的测试任务,对一个包含每天按产品计算的总成本的CSV数据集进行简单的**Group By**和**Sum**操作。期望的输出是一个具有三列的单个CSV文件:日期(时间戳)、总成本和产品ID。
在我更改DataBrew项目并选择**运行任务**后,该任务成功运行,但输出却是多个CSV文件。是否有一种方法让我指定输出只是一个...
1
回答
0
点赞数
61
检视次数