All Content tagged with AWS Glue

AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development.

内容语言: 中文 (简体)

Select up to 5 tags to filter
排序方式 最新
245 条结果
【以下的问题经过翻译处理】 如何解决从Amazon Glue到Redshift执行作业的问题?报错信息:"JobName:s3-redshift and JobRunId:jr_30d8ac0c6b35d44f641b7d5b55819365897b18e6244c8a5559bff53efc8e23c1 failed to execute with exception At least one...
1
回答
0
点赞数
46
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 能否导入/导出Glue data quality 规则?如果能,如何实现?谢谢。
1
回答
0
点赞数
35
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 我正在遵循以下链接中概述的步骤: <https://aws.amazon.com/blogs/big-data/introducing-native-delta-lake-table-support-with-aws-glue-crawlers/> (1) 使用Amazon Athena查询Delta Lake表没有问题,可以查询出数据。 (2) AWS Glue...
1
回答
0
点赞数
47
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 无法找到一种适当的方法来为我的Athena表**parquet**设置正确的时间戳属性数据类型,以便查询时间间隔。 我通过爬虫在从glue交互作业(PySpark)产生的parquet文件上创建表。 \*\*下面是我的Athena表和我尝试的时间戳格式\*\* 1. ts(数据类型为**timestamp**):2023-02-07...
1
回答
0
点赞数
29
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 你好,我正在运行一个Glue Job,在 S3 上的一个以分号分隔的 CSV 文件上应用 ETL。然而,当我使用 AWS 的 DynamicFrame 功能读取文件并尝试使用 printSchema 或 toDF 等方法时,出现以下错误: py4j.protocol.Py4JJavaError: An error occurred while calling...
1
回答
0
点赞数
64
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 我有一个AWS Glue PII数据检测作业,对于17.9 MB的文件大小,完成需要大约47分钟,这对于任何spark作业来说都是非常长的时间。 以下是作业中使用的代码片段: ``` S3bucket_node1 = glueContext.create_dynamic_frame.from_options( format_options={ ...
1
回答
0
点赞数
55
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 Hi, 我写过几个Glue Job,没有遇到这种情况,这是在我写的一个新Job中突然出现的问题。我正在使用以下代码将数据写入S3。S3路径是 "s3://...."。 unionData_df.repartition(1).write.mode("overwrite").parquet(test_path) 在我的测试环境中,当我第一次运行Glue...
1
回答
0
点赞数
26
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 在Python编程中,我需要在Glue工作流中添加作业和触发器。我不确定如何做到这一点,有人能帮助吗? 我使用了boto3库可以创建工作流,启动和停止,但无法指定作业或触发器。 从下面的链接中可以看出,通过Event...
1
回答
0
点赞数
18
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 在定义G1X Worker 节点类型的Glue Spark Job时,我将最大Worker 节点指定为4个。 如果我检查Cloudwatch作业监视器,我会看到一些指标在曲线图上达到20+,如下所示。 1. glue.driver.ExecutorAllocationManager.executors.numberMaxNeededExecutors 2....
1
回答
0
点赞数
35
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 我的蓝图需要一个S3 PutObject事件来启动Glue ETL作业。但当创建蓝图时,我只看到了按需和基于计划的触发器选项。有人知道在蓝图中创建这样的触发器的方法,或者更复杂的触发器类型是否会得到支持吗?
1
回答
0
点赞数
74
检视次数
profile picture
专家
已提问 10 个月前
1
回答
0
点赞数
78
检视次数
profile picture
专家
已提问 10 个月前
【以下的问题经过翻译处理】 是否有一种类似于这里描述的方式[[使用Apache Iceberg和AWS...
1
回答
0
点赞数
52
检视次数
profile picture
专家
已提问 10 个月前