All Content tagged with AWS Glue
AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development.
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
245 条结果
【以下的问题经过翻译处理】 如何解决从Amazon Glue到Redshift执行作业的问题?报错信息:"JobName:s3-redshift and JobRunId:jr_30d8ac0c6b35d44f641b7d5b55819365897b18e6244c8a5559bff53efc8e23c1 failed to execute with exception At least one...
【以下的问题经过翻译处理】 能否导入/导出Glue data quality 规则?如果能,如何实现?谢谢。
【以下的问题经过翻译处理】 我正在遵循以下链接中概述的步骤:
<https://aws.amazon.com/blogs/big-data/introducing-native-delta-lake-table-support-with-aws-glue-crawlers/>
(1) 使用Amazon Athena查询Delta Lake表没有问题,可以查询出数据。
(2) AWS Glue...
【以下的问题经过翻译处理】 无法找到一种适当的方法来为我的Athena表**parquet**设置正确的时间戳属性数据类型,以便查询时间间隔。
我通过爬虫在从glue交互作业(PySpark)产生的parquet文件上创建表。
\*\*下面是我的Athena表和我尝试的时间戳格式\*\*
1. ts(数据类型为**timestamp**):2023-02-07...
【以下的问题经过翻译处理】 你好,我正在运行一个Glue Job,在 S3 上的一个以分号分隔的 CSV 文件上应用 ETL。然而,当我使用 AWS 的 DynamicFrame 功能读取文件并尝试使用 printSchema 或 toDF 等方法时,出现以下错误:
py4j.protocol.Py4JJavaError: An error occurred while calling...
【以下的问题经过翻译处理】 我有一个AWS Glue PII数据检测作业,对于17.9 MB的文件大小,完成需要大约47分钟,这对于任何spark作业来说都是非常长的时间。
以下是作业中使用的代码片段:
```
S3bucket_node1 = glueContext.create_dynamic_frame.from_options(
format_options={
...
【以下的问题经过翻译处理】 Hi,
我写过几个Glue Job,没有遇到这种情况,这是在我写的一个新Job中突然出现的问题。我正在使用以下代码将数据写入S3。S3路径是 "s3://...."。
unionData_df.repartition(1).write.mode("overwrite").parquet(test_path)
在我的测试环境中,当我第一次运行Glue...
【以下的问题经过翻译处理】 在Python编程中,我需要在Glue工作流中添加作业和触发器。我不确定如何做到这一点,有人能帮助吗?
我使用了boto3库可以创建工作流,启动和停止,但无法指定作业或触发器。
从下面的链接中可以看出,通过Event...
【以下的问题经过翻译处理】 在定义G1X Worker 节点类型的Glue Spark Job时,我将最大Worker 节点指定为4个。
如果我检查Cloudwatch作业监视器,我会看到一些指标在曲线图上达到20+,如下所示。
1. glue.driver.ExecutorAllocationManager.executors.numberMaxNeededExecutors
2....
【以下的问题经过翻译处理】 我的蓝图需要一个S3 PutObject事件来启动Glue ETL作业。但当创建蓝图时,我只看到了按需和基于计划的触发器选项。有人知道在蓝图中创建这样的触发器的方法,或者更复杂的触发器类型是否会得到支持吗?
【以下的问题经过翻译处理】...
【以下的问题经过翻译处理】 是否有一种类似于这里描述的方式[[使用Apache Iceberg和AWS...